python网络爬虫实战-前言

大家好，我是python网络爬虫这门课程的主要讲师geo

什么是网络数据采集?

别名网络爬虫web crawler 、网络蜘蛛（spider）

是一种基于规则对网址中文本、图片等信息进行自动抓取的程序。

爬虫通过模拟真实用户，向服务器发送请求，持续对网页数据进行抓取，直到达成某一条件时停止。

爬虫的本质是在海量的数据中通过筛选收集有用的信息，最终进行分析整合以供使用。

学习这门课程你们可以学到什么？

任何你看到的网页都能通过技术把他们保存起来

可以学到分析整个网页结构如 html css js 和网络爬虫基本操作。

让我们来期待这门课程。

我们首先简单介绍下网络爬虫基本原理

可以分为以下 5 个核心步骤

发送请求（Request）: 爬虫向目标网站的 URL 发出 HTTP 请求，就像浏览器打开网页一样。常用的请求方法 GET：请求网页内容 POST：发送表单数据

获取响应内容（Response） : 服务器返回网页的 HTML、JSON、XML 或其他格式数据。

解析内容（Parsing）: 从网页源代码中提取我们需要的数据，比如标题、文章内容、链接、价格等。

数据存储（Save）: 将抓取的数据保存到本地或数据库

控制抓取频率（避免封锁）: 网站通常会对异常访问量进行防护。为了防止被封号或 IP 限制，爬虫需要

现在我们知道了爬虫基本原理那让我们开始搭建开发环境，我们主要是使用vs code和python。

vscode

Visual Studio Code 是由微软（Microsoft）开发的一款免费、开源、跨平台的代码编辑器，支持 Windows、macOS 和 Linux 系统。

它轻巧、快速，却功能强大，适用于从网页前端开发、后端服务、Python 数据分析，到嵌入式开发、DevOps 等多种场景。

python

Python 是一种高级、通用、解释型、跨平台的编程语言

它以简洁易读、语法直观著称，非常适合初学者入门，也是目前最受欢迎的语言之一，广泛用于：

数据分析与科学计算
网络开发
自动化脚本
人工智能（AI）、机器学习（ML）
Web 爬虫
游戏开发
金融建模与算法交易

pip

如何下载套件?

pip install request , selenium

虚拟环境

Python 虚拟环境是一个隔离的 Python 运行环境，让你在同一台电脑上安装和使用多个项目所需的不同版本的 Python 包，而不会相互干扰。

使用 venv 创建和管理虚拟环境

以下以 venv 为例：

创建虚拟环境

python -m venv env

env 是虚拟环境的目录名，可以自定义

会创建一个名为 env/ 的文件夹，里面包含独立的 Python 解释器和 site-packages 包目录

激活虚拟环境

Windows：

.\env\Scripts\activate

macOS / Linux：

source env/bin/activate

安装你要的包

pip install flask requests numpy

此时安装的包只属于当前虚拟环境。

保存环境配置

pip freeze > requirements.txt

将当前环境的所有依赖写入 requirements.txt，方便部署或共享。

从 requirements.txt 安装依赖

pip install -r requirements.txt

退出虚拟环境

deactivate

Share this article: