大家好,我是python网络爬虫这门课程的主要讲师geo
什么是网络数据采集?
别名网络爬虫web crawler 、网络蜘蛛(spider)
是一种基于规则对网址中文本、图片等信息进行自动抓取的程序。
爬虫通过模拟真实用户,向服务器发送请求,持续对网页数据进行抓取,直到达成某一条件时停止。
爬虫的本质是在海量的数据中通过筛选收集有用的信息,最终进行分析整合以供使用。
学习这门课程你们可以学到什么?
任何你看到的网页都能通过技术把他们保存起来
可以学到分析整个网页结构如 html css js 和网络爬虫基本操作。
让我们来期待这门课程。
我们首先简单介绍下网络爬虫基本原理
可以分为以下 5 个核心步骤
发送请求(Request): 爬虫向目标网站的 URL 发出 HTTP 请求,就像浏览器打开网页一样。常用的请求方法 GET:请求网页内容 POST:发送表单数据
获取响应内容(Response) : 服务器返回网页的 HTML、JSON、XML 或其他格式数据。
解析内容(Parsing): 从网页源代码中提取我们需要的数据,比如标题、文章内容、链接、价格等。
数据存储(Save): 将抓取的数据保存到本地或数据库
控制抓取频率(避免封锁): 网站通常会对异常访问量进行防护。为了防止被封号或 IP 限制,爬虫需要
现在我们知道了爬虫基本原理 那让我们开始搭建开发环境,我们主要是使用vs code和python。
vscode
Visual Studio Code 是由 微软(Microsoft)开发的一款免费、开源、跨平台的代码编辑器,支持 Windows、macOS 和 Linux 系统。
它轻巧、快速,却功能强大,适用于从网页前端开发、后端服务、Python 数据分析,到嵌入式开发、DevOps 等多种场景。
python
Python 是一种高级、通用、解释型、跨平台的编程语言
它以简洁易读、语法直观著称,非常适合初学者入门,也是目前最受欢迎的语言之一,广泛用于:
- 数据分析与科学计算
- 网络开发
- 自动化脚本
- 人工智能(AI)、机器学习(ML)
- Web 爬虫
- 游戏开发
- 金融建模与算法交易
pip
如何下载套件?
pip install request , selenium
虚拟环境
Python 虚拟环境是一个隔离的 Python 运行环境,让你在同一台电脑上安装和使用多个项目所需的不同版本的 Python 包,而不会相互干扰。
使用 venv 创建和管理虚拟环境
以下以 venv 为例:
创建虚拟环境
python -m venv env
env 是虚拟环境的目录名,可以自定义
会创建一个名为 env/ 的文件夹,里面包含独立的 Python 解释器和 site-packages 包目录
激活虚拟环境
Windows:
.\env\Scripts\activate
macOS / Linux:
source env/bin/activate
安装你要的包
pip install flask requests numpy
此时安装的包只属于当前虚拟环境。
保存环境配置
pip freeze > requirements.txt
将当前环境的所有依赖写入 requirements.txt,方便部署或共享。
从 requirements.txt 安装依赖
pip install -r requirements.txt
退出虚拟环境
deactivate