python网络爬虫实战-前言

大家好,我是python网络爬虫这门课程的主要讲师geo

什么是网络数据采集?

别名网络爬虫web crawler 、网络蜘蛛(spider)

是一种基于规则对网址中文本、图片等信息进行自动抓取的程序。

爬虫通过模拟真实用户,向服务器发送请求,持续对网页数据进行抓取,直到达成某一条件时停止。

爬虫的本质是在海量的数据中通过筛选收集有用的信息,最终进行分析整合以供使用。

学习这门课程你们可以学到什么?

任何你看到的网页都能通过技术把他们保存起来

可以学到分析整个网页结构如 html css js 和网络爬虫基本操作。

让我们来期待这门课程。

我们首先简单介绍下网络爬虫基本原理

可以分为以下 5 个核心步骤

发送请求(Request): 爬虫向目标网站的 URL 发出 HTTP 请求,就像浏览器打开网页一样。常用的请求方法 GET:请求网页内容 POST:发送表单数据

获取响应内容(Response) : 服务器返回网页的 HTML、JSON、XML 或其他格式数据。

解析内容(Parsing): 从网页源代码中提取我们需要的数据,比如标题、文章内容、链接、价格等。

数据存储(Save): 将抓取的数据保存到本地或数据库

控制抓取频率(避免封锁): 网站通常会对异常访问量进行防护。为了防止被封号或 IP 限制,爬虫需要

现在我们知道了爬虫基本原理 那让我们开始搭建开发环境,我们主要是使用vs code和python。

vscode

Visual Studio Code 是由 微软(Microsoft)开发的一款免费、开源、跨平台的代码编辑器,支持 Windows、macOS 和 Linux 系统。

它轻巧、快速,却功能强大,适用于从网页前端开发、后端服务、Python 数据分析,到嵌入式开发、DevOps 等多种场景。

python

Python 是一种高级、通用、解释型、跨平台的编程语言

它以简洁易读、语法直观著称,非常适合初学者入门,也是目前最受欢迎的语言之一,广泛用于:

  • 数据分析与科学计算
  • 网络开发
  • 自动化脚本
  • 人工智能(AI)、机器学习(ML)
  • Web 爬虫
  • 游戏开发
  • 金融建模与算法交易

pip

如何下载套件?

pip install request , selenium 

虚拟环境

Python 虚拟环境是一个隔离的 Python 运行环境,让你在同一台电脑上安装和使用多个项目所需的不同版本的 Python 包,而不会相互干扰。

使用 venv 创建和管理虚拟环境

以下以 venv 为例:

创建虚拟环境

python -m venv env

env 是虚拟环境的目录名,可以自定义

会创建一个名为 env/ 的文件夹,里面包含独立的 Python 解释器和 site-packages 包目录

激活虚拟环境

Windows:

.\env\Scripts\activate

macOS / Linux:

source env/bin/activate

安装你要的包

pip install flask requests numpy

此时安装的包只属于当前虚拟环境。

保存环境配置

pip freeze > requirements.txt

将当前环境的所有依赖写入 requirements.txt,方便部署或共享。

从 requirements.txt 安装依赖

pip install -r requirements.txt

退出虚拟环境

deactivate