第
5
章
网络数据获取
随着互联网的快速发展,有效提取并利用海量网络数据很大程度上决定了
解决问题的效率和质量。传统的通用搜索引擎作为辅助程序员检索信息的工
具,无法针对特定的目标和需求进行索引,也无法满足有效数据获取和信息发
现的高质量需求。面对结构越来越复杂,信息含量越来越密集的网络数据,为
了按照特定需求定向抓取并分析网页资源,实现更高效的指定信息获取、发现
和利用,网络爬虫应运而生。

..5.1 
网络爬虫简介

1.网络爬虫的定义
5.1 

网络爬虫(WebSpider)又称网络机器人、网络蜘蛛,是一种根据既定规则, 
自动提取网页信息的程序或者脚本。传统爬虫以一个或若干初始网页的统一
资源定位符(UniformResourceLocation,URL)为起点,下载每一个URL指定
的网页,分析并获取页面内容,并不断从当前页面抽取新的URL放入队列,记
录每一个已经爬取过的页面,直到URL队列为空或满足设定的停止条件为止。
网络爬虫的目的在于将互联网上的目标网页数据下载到本地,保存在数据库中
或本地数据文件中,以便进行本地数据文件操作和后续的数据分析。网络爬虫
技术的兴起源于海量网络数据的可用性,使用爬虫技术能够较为容易地获取网
络数据,通过数据分析得出有价值的结论。

5.2 
网络爬虫的类型
1.
按照系统结构和实现技术,网络爬虫大致分为四种类型:通用网络爬虫
(GeneralPurposeWebCrawler)、聚焦网络爬虫(FocusedWebCrawler)、增量
式网络爬虫(IncrementalWebCrawler)以及深层网络爬虫(DepWeb 
Crawler)。实际应用中的网络爬虫系统通常是几种爬虫技术相结合实现的。

1.通用网络爬虫
通用网络爬虫又称全网爬虫,爬行对象从一些种子URL扩充到整个Web 


第5章网络数据获取161(万维网), 主要为门户站点搜索引擎和大型Web服务提供商采集数据。这类网络爬虫
的爬行范围和数量巨大,对爬行速度和存储空间要求较高,而对爬行页面的顺序要求
相对较低,通常采用并行工作方式应对大量待刷新的页面,适合为搜索引擎获取广泛
的主题。
通用网络爬虫大致由页面爬行模块、页面分析模块、链接过滤模块、页面数据库、
URL 队列和初始URL 集合等几部分构成。为了提高工作效率,通用网络爬虫可以采用
深度优先和广度优先等爬行策略。采用深度优先爬行策略的爬虫按照深度由低到高的顺
序,依次访问下一级网页链接,直到不能再深入为止。爬虫在完成一个爬行分支后返回上
一个链接节点进一步搜索其他链接。当所有链接遍历完毕,爬行任务结束。这种爬行策
略比较适合垂直搜索或站内搜索,但爬行页面内容层次较深的站点时会造成资源的巨大
浪费。采用广度优先爬行策略的爬虫按照网页内容目录层次深浅来爬行页面,优先爬取
目录层次较浅的页面。当同一层次的页面爬行完毕,再深入下一层次继续爬取。这种爬
行策略能够有效控制页面的爬取深度,避免在遇到一个无穷深层分支时无法结束爬行的
问题。该策略无须存储大量的中间节点,不足之处是需要较长时间才能爬行到目录层次
较深的页面。
2.聚焦网络爬虫
聚焦网络爬虫又称主题网络爬虫,它会选择性地爬取与预定主题相关的页面。与通
用网络爬虫相比,聚焦网络爬虫只需爬取与主题相关的页面,极大地节省了硬件和网络资
源,保存页面数量少且更新快,可以更好地满足特定人群对特定领域信息的爬取需求。

页面内容和链接重要性不同导致链接的访问顺序也不一样,因此聚焦爬虫的爬行策
略分为以下四种。

基于内容评价的爬行策略将文本相似度计算方法引入网络爬虫中。该策略以用户输
入的查询词为主题,将包含查询词的页面视为主题相关页面,其局限性在于无法评价页面
与主题相关度的高低,可以尝试利用空间向量模型计算页面与主题的相关度。

页面链接指示了页面之间的相互关系,基于链接结构的搜索策略利用这些结构特征
评价页面和链接的重要性,以此决定搜索顺序。其中,PageRank算法是这类搜索策略的
代表,具体做法是每次选择PageRank值较大的页面链接进行访问。

基于增强学习的爬行策略将增强学习引入聚焦爬虫,利用贝叶斯分类器,根据网页文
本和链接文本对超链接分类,为每个链接计算重要性,从而决定链接的访问顺序。

基于语境图的爬行策略通过语境图学习网页之间的相关度。该策略训练一个机器学
习系统,计算当前页面到相关Web页面的距离,优先访问距离近的页面链接。

3. 
增量式网络爬虫
增量式网络爬虫对已下载的网页采取增量式更新策略,只爬行新产生或已经发生变
化的网页,在一定程度上保证爬行尽可能新的页面。与周期性爬行和刷新页面的爬虫相
比,增量式爬虫按需爬取新产生或发生更新的页面内容,有效减少了数据下载量并及
时更新爬行过的网页,减少时间和空间上的耗费,但是增加了爬行算法的复杂度和实


162Python数据分析案例教程(微课版) 
现难度。
为了保持本地存储的页面为最新页面,增量式爬虫通过监测网页数据的更新情况,持
续更新本地的页面内容。采用统一更新法的爬虫以相同的频率访问所有网页,不考虑网
页的改变频率。采用个体更新法的爬虫根据个体网页的改变频率重新访问各页面。采用
基于分类的更新法的爬虫根据网页改变频率分为更新较快网页子集和更新较慢网页子集
两类,然后以不同的频率访问这两类网页。
为了保证爬取的页面质量,增量式爬虫需要对网页的重要性进行排序,常用广度优先
策略和PageRank优先策略;也可以采用自适应方法,根据历史爬取结果和网页实际变化
速度对页面更新频率进行调整;或者将网页分为变化网页和新网页两类,分别采用不同的
爬行策略。
4.深层网页爬虫
Web页面按照存在方式可以分为表层网页和深层网页两类。表层网页是指传统搜
索引擎可以索引到的页面,以超链接可以到达的静态网页为主。深层网页是指隐藏在搜
索表单后,大部分内容不能通过静态链接获取,只有用户提交关键词才能获得的Web页
面。深层网页是目前互联网上最大、发展最快的新型信息资源。
深层网页爬行过程中最重要的部分就是表单填写,表单填写方法可以分为两类。
基于领域知识的表单填写:此方法一般会维持一个本体库,通过语义分析来选取合
适的关键词填写表单。一种方法是将数据表单按照语义分配到各个组中,每组从多方面
注解,结合各种注解结果预测最终的注解标签;也可以利用一个预定义的领域本体知识库
识别深层网页内容,同时利用Web站点导航模式自动识别填写表单时所需的路径
导航。

基于网页结构分析的表单填写:此方法一般无须领域知识或仅利用有限领域知识, 
将网页表单表示为文档对象模型(DocumentObjectModel,DOM), 从中提取表单字段
值。一种方法是将HTML(HyperTextMarkuplanguage,超文本标记语言)网页表示为
DOM 树形式,对单属性表单和多属性表单分别处理;也可以将Web文档构造成DOM 
树,将文字属性映射到表单字段。

5.3 
网络爬虫基本架构
1.
网络爬虫主要完成两个任务,即下载目标网页和从目标网页中解析信息。一个简单
网络爬虫的基本架构如图5-1所示。


图5-
1 
网络爬虫基本架构


第5章网络数据获取163 

1.URL 
管理模块
URL 管理模块负责管理URL 链接,维护已经爬行的URL 集合和计划爬行的URL 
集合,防止重复爬取或循环爬取。其主要功能包括:添加新的URL 链接、管理已爬行的
URL 和未爬行的URL 以及获取待爬行的URL 。

URL 管理模块的实现方式有两种:一种是利用Python集合数据类型不包含重复元
素的特点达到去重效果,防止重复爬取或循环爬取;另一种实现方式是在数据库表的记录
中增加一个URL 标志字段,例如,已爬行的网页链接标记为“1”,未爬行的网页链接标记
为“0”。当有新链接产生时,先在已爬行的链接集中查询,如果发现该链接已被标记为“1,(”) 那么不再爬行该URL 的链接页面。

2. 
网页下载模块
这是网络爬虫的核心组件之一,用于从URL 管理模块获取待爬行的URL,并将对
应的页面内容下载到本地,或者以字符串形式读入内存,方便后续使用字符串相关操
作解析网页内容。

Python第三方库requests是一个处理HTTP(HyperTextTransferProtocol,超文
本传输协议)请求的模块,其最大优点是程序编写过程更接近正常的URL 访问过程。

3. 
网页解析模块
网页解析模块是网络爬虫的另一个核心组件,用于从网页下载模块获取已下载的网
页,并解析出有效数据交给数据存储器。网页解析的实现方式多种多样。由于下载到本
地的网页内容以字符串形式保存,可以使用字符串相关操作从中解析出有价值的结构化
数据,例如,可以使用正则表达式指定规则,然后根据规则找出感兴趣的字符串;也可以使
用Python自带的HTML 解析工具html.arser从网页内容的字符串中解析出相关信

p
息;还可以使用Python第三方库beautifulsoup4实现网页解析。作为一种功能强大的结
构化网页解析工具,beautifulsoup4模块能够根据HTML 和XML(ExtensibleMarkupLanguage,可扩展标记语言)语法建立解析树,进而高效解析和处理页面内容。

4. 
数据存储器
数据存储器负责将网页解析模块解析出的数据存储起来,用于后续的数据分析和
信
息利用
。


..5.2 
网页下载模块

网页下载模块将URL 对应的网页下载到本地或读入内存。Python提供了第三方库
requests访问一个指定的URL,返回有用的数据。


1 64 Python数据分析案例教程(微课版) 
5.2.1 requests库简介
requests是一个处理HTTP请求的Python第三方库,需要预先安装。requests模
块在Python内置模块的基础上进行了高度封装,使得进行网络请求时更加简洁和人
性化。
requests库支持丰富的链接访问功能,包括HTTP长链接和链接缓存、国际域名和
URL获取、HTTP会话和Cookie保持、浏览器使用风格的SSL验证、自动内容解码、基
本摘要身份验证、有效键值对的Cookie记录、自动解压缩、Unicode响应主体、HTTP(S) 
代理支持、文件分块上传、流式下载、连接超时和分块请求等。
5.2.2 requests库的使用
1.requests库的网页请求方法 
通过URL访问网络链接并返回网页内容是requests模块的基本功能,其中与网页
请求相关的函数有6个,具体使用方法如表5-1所示。
表5-1 requests模块的网页请求函数
函 数说 明
get(url[,timeout=n]) 对应HTTP 的GET 方式,获取网页最常用的方式,可选参数
timeout设定每次请求超时时间,单位为秒
post(url,data={'key':'value'}) 对应HTTP的POST方式,其中字典用于传递客户数据
delete(url) 对应HTTP的DELETE方式
head(url) 对应HTTP的HEAD方式
options(url) 对应HTTP的OPTIONS方式
put(url,data={'key':'value'}) 对应HTTP的PUT方式,其中字典用于传递客户数据 
requests.get()函数向目标网址发送请求,接收响应,返回一个response对象。这里
的参数url必须采用HTTP或HTTPS方式访问。 
In [1]: import requests 
url ='https: //www.baidu.com/' 
r_obj =requests.get(url) 
type(r_obj) 
Out[1]: requests.models.Response 
2.response对象
调用requests.get()函数后,返回的网页内容保存为一个response对象。response对
象的常用属性如表5-2所示。

第5章 网络数据获取1 65 
表5-2 response对象的常用属性
属 性说 明
status_code HTTP请求返回的状态码,为整数,200表示连接成功,404表示连接失败,500表示内
部服务器错误等
headers HTTP响应内容的网页header信息
encoding HTTP响应内容的编码形式
text HTTP响应内容的字符串形式,即url对应的页面内容
content HTTP响应内容的二进制形式 
调用requests.get()函数后,可以使用response.status_code属性返回HTTP请求之
后的状态,如果请求未被响应,需要中止内容处理;否则系统返回一个response对象,其
中存储了服务器的响应内容。大多数情况下,requests用户可以使用response.text获取
文本形式的响应内容,requests自动解析服务器内容;也可以使用response.encoding属性
返回页面内容的编码方式,可以为encoding属性赋值更改编码方式,便于处理中文字符。
实际上,requests也可以基于HTTP头部信息对相应编码做出有根据的推测,使用正确的编
码方式访问response.content,以字节形式直接保存返回的二进制数据。 
In [2]: r_obj.status_code #状态码
Out[2]: 200 
In [3]: r_obj.headers #网页header 信息
Out[3]: {'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no 
-transform ', ' Connection ': ' keep - alive ', ' Content - Encoding ': ' gzip ', ' 
Content- Type': 'text/html', 'Date': 'Fri, 05 Feb 2021 01: 52: 06 GMT', 'Last- 
Modified': 'Mon, 23 Jan 2017 13: 23: 55 GMT', 'Pragma': 'no- cache', 'Server': ' 
bfe/1.0.8.18', 'Set- Cookie': 'BDORZ= 27315; max- age= 86400; domain=.baidu. 
com; path=/', 'Transfer-Encoding': 'chunked'} 
In [4]: r_obj.encoding #网页编码
Out[4]: 'ISO-8859-1' 
In [5]: r_obj.text #请求返回的文本信息, 出现乱码
Out[5]: '<!DOCTYPE html> \r\n<!- - STATUS OK- - > < html> < head> < meta http - equiv= 
content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible 
content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type= 
text/css href=https: //ss1.bdstatic.com/5eN1b jq8AAUYm2zgoY3K/r/www/cache/bdorz/ 
baidu.min.css><title>.\x993/4.°|..\x80..\x8b.1/4\xa0.°±.\x9f$é\x81\x93</title> 
</head><body link=#0000 cc><div id=wrapper><div id=head>… 
In [6]: r_obj.encoding ='utf-8' #重新设置网页编码,使用utf-8 编码
Out[6]: '<!DOCTYPE html>\r\n<!--STATUS OK- - > < html> < head> < meta http - equiv 
=content- type content= text/html; charset= utf- 8> < meta http- equiv= X- UACompatible 
content=IE= Edge> < meta content= always name= referrer> < link rel= 
stylesheet type=text/css href=https: //ss1.bdstatic.com/ 5eN1b jq8AAUYm2- 
zgoY3K/r/www/cache/bdorz/baidu.min.css> < title> 百度一下,你就知道</title> </ 
head><body link=#0000cc><div id=wrapper><div id=head>… … … …

1 66 Python数据分析案例教程(微课版) 
In [7]: r_obj.content #以字节形式返回的非文本信息
Out[7]: b'<!DOCTYPE html>\r\n<!--STATUS OK--><html><head><meta http -equiv 
=content- type content= text/html;charset= utf- 8> < meta http- equiv= X - UACompatible 
content=IE= Edge> < meta content= always name= referrer> < link rel= 
stylesheet type = text/css href = https: //ss1. bdstatic. com/5eN1 
bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css> < title> \xe7\x99\xbe\xe5\ 
xba\xa6\xe4\xb8\x80\xe4\xb8\x8b\xef\xbc\x8c\xe4\xbd\xa0\xe5\xb0\xb1\xe7\x9f\ 
xa5\xe9\x81\x93</title></head><body link=#0000cc>… … … … 
除了属性,response对象还提供了一些方法,如表5-3所示。
表5-3 response对象的常用方法
方 法说 明
json 如果HTTP响应内容包含JSON格式数据,则解析JSON数据
raise_for_status() 如果状态码不是200,则抛出异常 
response对象的json()方法解析HTTP响应内容中的JSON 数据;response对象的
raise_for_status()方法可以用于try…except…结构,在非成功响应后抛出异常,避免状态码
200以外的各种意外。例如,遇到DNS 查询失败、拒绝连接等,requests 会抛出
ConnectionError异常;遇到无效响应时,requests会抛出HTTPError异常;如果请求url超
时,会抛出Timeout异常;请求超过了设定的最大重定向次数,会抛出TooManyRedirect异
常,等等。
例5-1 编写一个获取网页内容的函数。 
In [1]: import requests 
def getHTMLText(url): 
try: 
r_obj=requests.get(url,timeout=30) 
r_obj.raise_for_status() 
r_obj.encoding='utf-8' 
return r_obj.text 
except: 
return "" 
url="http: //www.baidu.com" 
print(getHTMLText(url)) 
Out[1]: <!DOCTYPE html> 
<!--STATUS OK--><html><head><meta http-equiv=content-type content 
=text/html;charset=utf-8> < meta http- equiv= X- UA- Compatible content= IE 
=Edge> < meta content= always name= referrer> < link rel= stylesheet type= 
text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css> < 
title>百度一下, 你就知道</title > </head > < body link = # 0000cc > < div id = 
wrapper><div id=head><div class=head_wrapper>… … … …

第5章 网络数据获取1 67 
.. 5.3 网页解析模块
使用requests模块获取HTML 页面并将其转换成字符串之后,需要进一步解析
HTML页面格式,提取有用信息,这需要解析和处理HTML、XML的函数库。
5.3.1 beautifulsoup4库简介
Python第三方库beautifulsoup4(也称BeautifulSoup或bs4 库)用于解析和处理
HTML、XML 文件并提取数据。beautifulsoup4支持多种解析器,其优势是能够根据
HTML和XML语法建立解析树,进而高效解析其中的内容,为用户提供需要的数据。
在使用之前,需要预先安装第三方库beautifulsoup4。在Scripts文件夹下打开命令
提示符窗口,使用命令pipinstallbeautifulsoup4进行安装。
安装完成后,需要在Python解释器中导入beautifulsoup4,可以使用from…import 
方式从bs4模块直接引用BeautifulSoup类,方法如下。 
In [1]: from bs4 import BeautifulSoup 
然后,就可以使用beautifulsoup4模块提供的函数和方法处理导航、搜索、修改分析
树等一系列操作。
5.3.2 文档对象模型
HTML建立的Web页面一般比较复杂,除了有用数据之外,还包含大量用于页面格
式的元素。一个网页文件通常可以表示为一个文档对象模型(DocumentObjectModel, 
DOM)。DOM 是一种处理HTML和XML文件的标准编程接口,它提供了对整个文档
的访问模型,将网页文档表示为一个树形结构,树的每个节点表示一个HTML 标签
(Tag)或标签内的文本项。DOM 树结构精确地描述了HTML文档中标签间的关联性, 
如图5-2所示。
图5-2 文档的DOM 树结构

1 68 Python数据分析案例教程(微课版) 
将HTML或XML文档转换为DOM 树的过程称为解析。HTML文档被解析后, 
转换为DOM 树,因此对HTML文档的处理可以通过对DOM 树的操作实现。DOM 树
不仅描述了文档的结构,还定义了节点对象的行为。利用节点对象的方法和属性,可以方
便地访问、修改、添加和删除DOM 树的节点和内容。
Python第三方库beautifulsoup4将复杂HTML文档转换成一个树形结构,将专业
的Web页面格式解析部分封装成函数。这些方便有效的处理函数为用户解析和处理
HTML、XML文件提供了便捷。
5.3.3 创建BeautifulSoup对象
导入bs4库的BeautifulSoup类之后,通过BeautifulSoup类创建一个BeautifulSoup 
对象。实例化的BeautifulSoup对象相当于一个页面,表示一个文档的全部内容。 
In [1]: import requests 
from bs4 import BeautifulSoup 
url ='http: //www.baidu.com' 
r_obj =requests.get(url) 
bs =BeautifulSoup(r_obj.content, from_encoding='utf-8') 
type(bs) 
Out[1]: bs4.BeautifulSoup 
BeautifulSoup对象是一个树状结构,它包含HTML页面的每一个标签(Tag)元素, 
如<head>、<body>等。也就是说,HTML的主要结构都成为BeautifulSoup对象的属
性。表5-4列出了BeautifulSoup对象的常用属性。
表5-4 BeautifulSoup对象的常用属性
属 性说 明
head HTML页面的<head>内容
title HTML页面标题,在<head>中,由<title>标记
body HTML页面的<body>内容
p HTML页面中第一个<p>内容
strings HTML页面所有呈现在Web上的字符串,即标签的内容
stripped_strings HTML页面所有呈现在Web上的非空格字符串 
In [2]: bs.head 
Out[2]: <head>< meta content="text/html;charset= utf- 8" http- equiv="content 
-type"/> < meta content =" IE = Edge" http - equiv =" X - UA - Compatible"/> < meta 
content="always" name ="referrer"/> < link href =" http://s1. bdstatic. com/r/ 
www/cache/bdorz/baidu.min.css" rel="stylesheet" type="text/css"/> < title> 百
度一下,你就知道</title></head>

第5章 网络数据获取1 69 
In [3]: bs.title #每一个对应HTML Tag 的属性是一个Tag 类型
Out[3]: <title>百度一下,你就知道</title> 
In [4]: type(bs.title) 
Out[4]: bs4.element.Tag 
In [5]: bs.p 
Out[5]: < p id="lh"> < a href="http://home.baidu.com"> 关于百度</a> < a href=" 
http://ir.baidu.com">About Baidu</a></p> 
许多情况下,可以将BeautifulSoup对象看作Tag对象,它支持遍历DOM 树和搜索
DOM 树的大部分方法。创建BeautifulSoup对象之后,可以使用BeautifulSoup对象的方
法查找和解析网页。
5.3.4 查询节点
当需要列出标签对应的所有内容或者需要找到非第一个标签时,可以使用
BeautifulSoup对象的find()和findall()方法。这两个方法可以遍历整个HTML文档, 
依据查找条件返回标签内容。
1.find()方法
find()方法实现指定范围内的单次条件定位,目的是找到满足条件的第一个节点,返
回第一个匹配的对象。
find()方法语法格式如下: 
find(name, attrs, recursive, string) 
参数name:标签名,可以是字符串类型,定位到指定标签名的节点;也可以是列表类
型,用于匹配多个标签名;还可以是正则表达式,用于传递自定义的标签名规则;找到后返
回一个BeautifulSoup标签对象。
参数attrs:标签的属性,以字典类型指定标签的属性名及属性值,查找其第一次出现
的位置,找到后返回一个BeautifulSoup标签对象。
参数recursive:设置查找层次,布尔类型数据,默认值为True,表示当前标签下的所
有子孙标签;如果设置为False,表示只查找当前标签下的直接子标签。
参数string:查找标签的文本内容,而不使用标签的属性去匹配。参数可以是字符串
类型,字符串列表等,搜索指定范围的字符串内容,返回匹配字符串的列表。
find()方法的参数相当于过滤器,可以对页面内容进行筛选处理。依据find()方法
的参数查找满足条件的标签,返回找到的第一个节点信息。 
In [6]: bs.find('title') #查找title 标签
Out[6]: <title>百度一下,你就知道</title> 
In [7]: link_tag =bs.find('a') #查找第一个链接标签
Out[7]: <a class="mnav" href="http://news.baidu.com" name="tj_trnews"> 新闻
</a>