第3章爬虫与反爬虫
搭建完开发环境，学会基本的调试手段后，就可以正式开始学习AST反爬虫以及还原混淆JS代码了。不过在此之前，先给不熟悉网络爬虫的读者介绍一些关于爬虫的基本概念，以及如今常见的应对爬虫的反爬虫技术，从而对之后的AST反爬虫的功用有更深的了解。
3.1网络爬虫
网络爬虫又叫作网络蜘蛛、网络机器人等，可将其理解为一个在互联网上自动提取网页信息并进行解析抓取的程序。网络爬虫不仅能够复制网页信息和下载音视频，还可以做到行为链执行与网站的模拟登录。大数据时代，不论是人工智能还是数据分析，都需要有海量的数据在背后做支撑，如果单是依靠人力手动采集，不仅成本高昂且效率低下。在这一需求下，自动化且高效、可并发执行的网络爬虫担起了获取数据的重任。
3.1.1网络爬虫原理
理论上来说，任何编程语言都可以用来编写网络爬虫，只有难易之分。因为网络爬虫本质上只是对目标服务器发起HTTP请求，并对HTTP响应做出处理，提取关键信息进行清洗入库。这里的服务器可以理解为要爬取的网站站点，爬虫程序发起一次HTTP请求，网站服务器对请求做出一次响应，就构成了一次网络爬虫行为，但仅发起请求是不完整的，还需要将网站返回的信息进行数据解析和清洗，将最终需要的数据存储到数据库或本地文件里，才算是完成了一整套的爬虫流程。
如图31所示，完整的爬虫流程是编写的网络爬虫发起请求后，目标网站返回指定的请求响应，通过对请求响应返回的响应体进行解析，找到需要的信息进行数据存储。如果需要翻页或跳转，则从当前页面或响应体中提取出链接再次发起请求。
Python实现了许多第三方库来帮助开发者完成这个操作，在第1章中安装的requests库用于发起HTTP请求，省去了实现请求程序的时间，bs4解析库让开发者只需要专注于网页信息的定位和操作网站返回的主体信息。开发重心也就从协议处理转化到了具体网页的数据提取。在了解了爬虫的原理与基本流程之后，接着来探讨网络爬虫中请求和响应的具体内容。


图31网络爬虫流程


1. 发起请求
网络爬虫本质上是HTTP请求，因而每发起一次爬虫请求，实际上就是向目标服务器发送了一次请求报文。接下来需要具体了解一下HTTP请求报文。如表31所示，HTTP请求报文主要由四部分组成，分别是请求行、请求头部、空行和请求体。


表31HTTP请求报文




请求报文类别
请求报文组成内容
请求行请求方法空格统一资源定位符空格HTTP协议版本＼n＼r

请求头部
请求头部键∶请求头部值＼n＼r
…∶…＼n＼r
请求头部键∶请求头部值＼n＼r

空行＼n＼r
请求体请求包体

1) 请求行
在请求行中，主要起作用的部分是请求方法、统一资源定位符和HTTP协议版本。不同的请求方法用来处理不同的任务，以下是常用的8种HTTP请求方法。
(1) GET： 向目标服务器请求资源，返回实体主体。
(2) POST： 向目标服务器发送资源，例如提交表单。
(3) HEAD： 与GET类似，不过它用于获取报头，不会返回具体内容。
(4) PUT： 向目标服务器发送数据以覆盖指定内容。
(5) DELETE： 请求服务器删除URL指定内容。
(6) OPTIONS： 返回目标服务器针对特定资源的HTTP请求方法。
(7) TRACE： 用于测试诊断，回显服务器收到的请求。
(8) CONNECT： HTTP 1.1协议预留给能够将链接修改为管道方式的代理服务器。
在这些请求方法中，在实际开发中使用最多的是GET和POST，前者常用来获取网页资源，后者常用来模拟登录。
请求行中的统一资源定位符实际上就是URL(Uniform Resource Locator)，如果要浏览一个网页页面，首先需要的就是在浏览器中输入它的URL地址。日常生活中经常用搜索引擎来辅助完成查找，搜索引擎也是依赖网络爬虫来搜集数据的，只不过它在爬虫基础上拓展了更多技术，需要对数据进行组织处理后根据用户的检索进行反馈。编写网络爬虫一定程度上是在模拟正常用户浏览网页的行为，不过是用代码的方式进行呈现，所以编写的网络爬虫在发起请求寻找资源时，也需要有URL作为导引。
至于HTTP协议版本，需要了解的是HTTP 1.0 只定义了上述所列举的前三种方法，即GET、POST和HEAD，在HTTP 1.1 才新增了后5种方法。
2) 请求头部
请求头部主要由一系列的键值对组成，用来说明服务器需要的附属信息。通常反爬虫的检测会在请求头部里进行，检测是否包含关键键值对，如果不存在或数据不匹配就会被判定为机器人。下面介绍8个实用的请求头键值对。
(1) AcceptCharset： 表示客户端可以接受的字符集。
(2) Cookie： 网站用来识别身份所用的加密键值对，需要登录才能访问的网站通常需要携带。
(3) Connection： 表示是否需要持久连接，close代表本次响应后连接可以被关闭； keepalive表示长久连接，等待客户端的下次请求。在HTTP 1.1下默认会保持持久连接。

(4) ContentLength： 请求体的长度。
(5) ConetntType： 请求体的数据类型。
(6) Host： 请求的主机名。
(7) Referer： 指明用户从该URL出发到达此页面，常用于防盗链技术。
(8) UserAgent： 服务器用来识别浏览器类型，可更改这个参数达到切换计算机端与手机端的效果。
3) 空行
空行必须存在于HTTP请求头部之后，也就是输入“＼n＼r”，它的作用在于通知目标服务器此后不会再出现请求头部，将会进入请求体。这是一种简单而实用的数据分割方式。

4) 请求体
在GET方法中一般不存在请求体，请求体适用于POST方法，内容是用户在填写表单时提交的数据，通常会在请求头部的ContentLength与ContentType中进行附属说明。它的格式是用“&”连接的键值对，如name=test&password=123。
由此而知，如果要编写一个网络爬虫，首先要获取请求行需要的URL，之后根据具体需求判断请求方式，如果要让目标服务器更多地了解自己编写的爬虫程序，就需要在请求头部里添加键值对，最后如果想提交数据，就需要在请求体中编写键值对连接串。
打开预先下载好的Fiddler抓包工具进行抓包，以下是访问百度首页的HTTP发包信息： 


GET https://www.baidu.com/ HTTP/1.1

Host: www.baidu.com

Connection: keep-alive

Upgrade-Insecure-Requests: 1

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36

Sec-Fetch-User: ?1

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9

Sec-Fetch-Site: none

Sec-Fetch-Mode: navigate

Accept-Encoding: gzip, deflate, br

Accept-Language: zh-CN,zh;q=0.9

Cookie:PSTM=1593078681; BAIDUID=1D487D44FE512A2B72D79B17C511AEBA:FG=1; BD_UPN=12314753; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598

通过观察可知，它是完全符合HTTP请求报文结构的，浏览器在访问页面时，自动添加了许多请求头部，从UserAgent可以看出这里使用Chrome Google浏览器发起HTTP请求，而且由于发起的是GET请求，因此不存在请求体。
2. 解析响应
服务器根据请求返回的HTTP响应报文内包含了客户端需要的数据，一般可以通过观察报文中的一些关键信息来确认响应的实际情况。HTTP响应报文的主要结构如表32所示。


表32HTTP响应报文




响应报文类别响应报文内容

状态行空格状态码空格状态码描述＼n＼r

响应头
响应头部键∶响应头部值＼n＼r
…∶…＼n＼r
响应头部键∶响应头部值＼n＼r

空行＼n＼r
响应体响应包体内容

可以发现HTTP响应报文与HTTP请求报文相似，依然是四个部分： 状态行、响应头、空行和响应体。在状态行中去除了请求方法、统一资源定位符与HTTP协议版本，新增了状态码和状态码描述，可以这样理解，HTTP响应主要用来回应浏览器的请求，浏览器根据响应报文判断返回响应的内容完整性与服务器状态，从而确定请求是否需要重发、内容是否发生更新等。所以首先需要增加状态码来明确响应状态，让浏览器客户端能够实时地了解请求反馈。
1) 响应行
响应行中的状态码 state code主要由三位数字构成，第一位数字用来辨别响应类型，后两位则是单纯用来计数区分。状态码的响应类别主要分为以下5类。 
(1) 1xx： 服务器成功接收客户端请求，客户端可继续发送请求。
(2) 2xx： 服务器成功接收请求，并着手进行处理。
(3) 3xx： 服务器要求客户端重定向。
(4) 4xx： 服务器表明客户端请求非法。
(5) 5xx： 服务器发生错误。
由此可见，以1开头的状态码一般表示请求已经被接收，但并未被处理； 以2开头的状态码通常代表成功接收并被处理； 以3开始的状态码代表资源被转移，需要重定向； 以4开头的状态码很可能是程序的请求编写错误； 以5开头的状态码是服务器内部发生错误，与浏览器客户端的请求内容无关。下面是一些必须熟记的10种状态码及其描述。
(1) 200 OK： 表示请求成功，请求报文中所希望的资源会在响应中被返回，通常在浏览器中正常看到网页内容时就会返回200状态码。
(2) 206 Partial Content： 服务器返回部分内容，虽然请求成功，但请求返回的内容是不完整的。此状态码常见于断点续传或者大文件的分段下载传输。
(3) 301 Moved Permanently： 请求的资源被永久移动到了其他地方，并且之后也不会再将资源移动回来。通常新的URL地址会在HTTP响应头的Location键中返回。
(4) 302 Moved Temporarily： 请求的资源被临时移动到了其他地方，因此用户今后也应该继续向该URL发起请求，而不是去请求响应体中返回的新的URL地址。
(5) 400 Bad Request： 通常发生这个错误是因为在编写HTTP请求时，写错了请求参数或者语义有误，导致服务器无法理解。
(6) 403 Forbidden： 服务器理解了请求，但是拒绝返回内容。此状态码通常是因为网络爬虫恶意访问网站而导致IP地址被标记，再次请求就会被服务器拒绝。
(7) 404 Not Found： 请求内容未在服务器找到，通常是由于网站开发者将内容删除。
(8) 405 Method Not Allowed： 请求方式错误，多数情况是因为请求方法不当，例如本应当是模拟登录的POST请求，误写为了GET请求。
(9) 500 Internal Server Error： 服务器遇到突发状况，导致无法完成请求处理，通常是因为服务器源代码错误。
(10) 502 Bad Gateway： 作为网关或者代理工作的服务器在执行请求时，从上游服务器收到无效响应。
2) 响应头
在网络爬虫中，开发者并不需要对响应头有过多关注，只需要偶尔观察其中的个别键值对用于查看辅证响应状态码的描述，需要了解的是如下三个响应头。
(1) Location： 是在301或者302状态码下返回的重定向后的URL地址。
(2) Connection： colose代表本次响应后连接将被关闭； keepalive表示长久连接，服务器会等待客户端的下次请求。
(3) Server： 服务器用来处理请求的软件信息及其版本，与HTTP请求中的Useragent类似。不过它代表的是服务器端的信息。
3) 空行
响应头之后必须添加空行，输入“＼n＼r”，表示接下来进入响应体内容。
4) 响应体
响应体中是服务器返回给客户端的内容。爬虫开发者一般会在这里进行链接提取或内容爬取，不过在面对不同的响应体内容时，需要用不同的方式去处理。如果返回HTML源代码，可以使用Python中的bs4包进行DOM解析或编写正则表达式进行匹配； 如果请求的是音视频，会返回二进制文件，这时就要写一个二进制文件存储函数进行数据下载； 如果请求的是网站接口，通常返回JSON格式数据，需要使用Python中的内置包JSON进行格式解析。
因此，在面对HTTP响应报文时，主要通过观察状态码来了解响应的具体情况与服务器状态，如果请求成功，则继续处理响应体中的内容，再通过观察响应体的格式来编写具体的爬虫解析程序。
这里将Fiddler中抓到的百度首页响应包进行展示： 


HTTP/1.1 200 OK

Bdpagetype: 2

Bdqid: 0xf12fb0dc002ff2a1

Cache-Control: private

Connection: keep-alive

Content-Type: text/html;charset=utf-8

Date: Sun, 05 Jul 2020 03:08:38 GMT

Expires: Sun, 05 Jul 2020 03:08:38 GMT

Server: BWS/1.1

Set-Cookie: BDSVRTM=262; path=/

Strict-Transport-Security: max-age=172800

Traceid: 1593918518283822567417379303945988469409

X-Ua-Compatible: IE=Edge,chrome=1

Content-Length: 329114



<!DOCTYPE html><!--STATUS OK-->

<html><head><meta http-equiv="Content-Type" 

...

可以看出，状态码是200，状态码描述是OK，之后是响应头键值对，通过Server可以得知百度的Web服务器叫作BWS，最后就是空行和HTML源代码。
3.1.2网络爬虫分类
实际开发中根据具体的代码实现与爬虫架构，可以将网络爬虫分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫与深层网络爬虫。
1. 通用网络爬虫(General Purpose Web Crawler)
通用网络爬虫又叫作全网爬虫，顾名思义，它的目标是整个互联网的数据，爬取的数据极为丰富，因此常用于搜索引擎中。它们往往从一些URL出发，辗转爬取，最终拓展到整个网络。一个爬虫程序的设计离不开发起请求、解析页面和内容存储三个方面。既然要存储海量的互联网数据，那这类爬虫对于爬虫的性能和数据的存储空间就会有高要求，而且因为URL数量过多，所以通用网络爬虫常会忽略爬行页面的顺序，并且采取并发的模式来提高爬取速度。
因为它要爬取海量的数据，所以此类爬虫的爬取策略常需要进行严格的设计与实践。目前，深度优先爬取策略和广度优先爬取策略是较为常见的。
(1) 深度优先爬取策略： 按照页面深度进行排序，一次访问一级URL，直到触底无法深入。
(2) 广度优先爬取策略： 按照页面内容目录层次进行划分，爬取完同一层次的URL才会继续进入下一层进行爬取。
不过真正应用于实践当中的通用网络爬虫策略往往会非常复杂，并且穿插各类算法在其中。
2. 聚焦网络爬虫(Focused Web Crawler)
聚焦网络爬虫更适用于日常的爬虫需求，并不需要爬虫程序去获取整个互联网的资源，那是搜索引擎该做的事。它专注于某一主题，选择性爬取网页上与开发者已经定义的规则相匹配的数据资源，能够满足对于特定网站或者领域的信息爬取工作。
聚焦网络爬虫的爬取策略有以下四种。
(1) 基于内容评价： 将用户输入的信息作为主题进行爬取，页面包含用户输入信息则认为与主题相关。
(2) 基于链接评价： 根据页面结构信息分析爬取的URL的重要性，根据重要程度进行爬取优先级的排序。
(3) 基于增强学习： 利用概率统计中的贝叶斯分类器，根据网页内容和链接文本对URL进行分类，计算出URL的权重，以决定爬取顺序。
(4) 基于语境图： 结合机器学习系统，计算当前页面到相关的网页的距离，距离越近的页面的URL则越优先访问。
3. 增量式网络爬虫(Incremental Web Crawler)
增量式网络爬虫主要目的是长久地维持一个数据库，对于其中数据的稳健性和实时性具有高要求。简单来说，它对已经爬取过的网页页面采取增量式更新，再次爬取时就会只爬取新出现的或者发生改变的数据，对于没有发生变化的页面或数据则不会爬取。
此类爬虫常用的策略有以下三种。
(1) 统一更新： 每隔一段时间将所有的页面再访问一遍，以达到更新数据的目的。
(2) 个体更新： 根据个体网站的数据变化频率来指定重新访问的时间。
(3) 分类更新： 将网页区分为数据变化迅速的和数据变化缓慢的，以不同频率访问这两类网页。
4. 深层网络爬虫(Deep Web Crawler)
深层网络主要指的是没办法直接访问到的页面，这类网页信息通常需要满足一定的要求才可以浏览，它隐藏在一些表单之后，不能通过静态链接直接获取，例如日常生活中遇到的一些必须登录、注册后才可以访问的网站。这类爬虫只需要搭配GET和POST请求便可以访问，主要难点在于破解POST提交信息时的网页数据加密。
此类爬虫的爬取策略有以下两种类型。
(1) 基于领域知识： 维护一个本地的词库，通过语义分析来选取合适的关键词填写表单。
(2) 基于网页结构分析： 在领域知识欠缺的情况下，根据网页结构进行分析，并自动填写表单。
3.1.3网络爬虫与搜索引擎
首先，搜索引擎的制作离不开网络爬虫，如百度搜索引擎又叫作百度爬虫(BaiduSpider)，Google搜索引擎又被称为谷歌机器人(Googlebot)。此外，通用网络爬虫有时候也可以用来指代搜索引擎，那么是否搜索引擎就是网络爬虫呢？答案是否定的。搜索引擎是一项综合性的技术，网络爬虫是实现搜索引擎必不可少的一环，它只为搜索引擎提供数据，除此之外还需要结合建立全文索引、进行倒排文件以及提供查询服务等技术。
搜索引擎是为大多数用户提供检索服务的，所以有些冷门的没被列入索引的网站就没办法被实时获取到，而网络爬虫则可以通过个人定制，爬取这些网站，如理论上开发者编写的网络爬虫可以到达，但深层网络爬虫以及在robots.txt中明确禁止搜索引擎爬取的网站。
虽然开发者日常编写的网络爬虫远不及搜索引擎那般复杂与精密，但是却能够让人了解到搜索引擎内部的工作原理。而且搜索引擎也可以看作日常编写的多个定向聚焦的网络爬虫的聚合，当搜索引擎没办法完成定向的数据搜集工作时，编写一个自己的网络爬虫就显得极为重要。



视频讲解


3.2编写网络爬虫
这里采用主流的Python语言来编写网络爬虫，配合3.1节中讲过的爬虫原理与流程进行实战，在爬虫编写后分析可用于反爬虫的切入点。
3.2.1requests请求库的使用
网络爬虫需要根据提供的URL发送HTTP请求包，才能够返回需要的信息，所以首先需要使用requests这一个HTTP请求库来发起请求。根据HTTP请求包的结构，首先需要有请求方法，requests这一个请求库已经内置了HTTP 1.1协议中的所有方法，可以直接使用，如： 


import requests

requests.get

requests.post

在发送HTTP请求包的时候，请求头部也是必不可少的，可通过自定义一个Python字典，将其作为参数传入请求方法中，通常来说可以把Fiddler抓包到的HTTP请求头部进行复制，如： 


headers={

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'

}

这样就在Python中定义好了一个HTTP请求头部，如果要对百度首页发起请求获取页面内容，只需要找到百度首页的URL，编写以下代码即可： 


import requests

headers={

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36

(KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'

}

response=requests.get('http://www.baidu.com/',headers=headers)

if response.status_code==200:

print(response.text)

如果返回响应的状态码是200 OK，就打印网页的源代码，运行这段代码后会得到百度首页的HTML文本。
3.2.2bs4解析库的使用
直接请求获取的网页源代码是没有任何作用的，需要根据自身的需求将需要的信息提取出来，所以先来了解一下bs4解析库的使用。它是通过将复杂HTML文本转化为树状结构进行定位的，每一个节点都是Python对象，要引入它也很容易，只需要编写以下代码： 


from bs4 import BeautifulSoup

soup=BeautifulSoup(response.text,'lxml')

将请求到的HTTP响应文本写入第一个参数，lxml对应bs4选择的解析器，官方推荐使用lxml作为解析器，因为使用它效率更高。至于定位页面元素，这里主要使用CSS选择器，因为它编写简便，定位精准。在CSS选择器中“.”对应class属性，“#”对应着id属性，通过HTML标签名以及class和id属性对页面节点进行定位。图32所示为百度首页部分源代码，如果要定位其中的“百度一下”按钮，编写的CSS语法就是#su。


图32百度首页部分源代码


以下是获取“百度一下”按钮文本的源代码： 


from bs4 import BeautifulSoup

soup=BeautifulSoup(response.text,'lxml')

btn=soup.select_one("#su")

print(btn［'value'］)

因为bs4返回的节点都是Python对象，所以如果要获取HTML标签中的元素，只需要像Python中获取字典的形式一样去获取。
3.2.3编写简单网络爬虫
为了后续反爬虫工作的展开，有必要了解网络爬虫的编写流程，接下来以爬取百度搜索引擎的Python检索内容为例。
在百度搜索引擎中查找Python，会在浏览器上方得到URL地址，之后打开Fiddler进行抓包，查看HTTP请求包，如： 


GET https://www.baidu.com/s?ie=UTF-8&wd=Python HTTP/1.1

Host: www.baidu.com

Connection: keep-alive

Pragma: no-cache

Cache-Control: no-cache

Upgrade-Insecure-Requests: 1

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 	(KHTML,like Gecko) Chrome/79.0.3945.88 Safari/537.36

Sec-Fetch-User: ?1

Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,i	mage/apng,*/*;	q=0.8,application/signed-exchange;v=b3;q=0.9

Sec-Fetch-Site: same-origin

Sec-Fetch-Mode: navigate

Referer: https://www.baidu.com/

Accept-Encoding: gzip, deflate, br

Accept-Language: zh-CN,zh;q=0.9

Cookie:PSTM=1593078681; BAIDUID=1D487D44FE512A2B72D79B17C511AEBA:FG=1;
BD_UPN=12314753;BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; 

BIDUPSID=3978FC862BDE8A5142693D114E1B0F07

复制其中的UserAgent和Cookie来构建HTTP请求头部，前者用于将爬虫伪装成Google Chrome浏览器来欺骗服务器，后者用于服务器对爬虫的身份识别。HTTP请求包构建完毕后，就需要解析获取到的HTML源代码，观察图33所示的百度搜索返回结果的网页源代码，发现除去广告之外的真实搜索结果中都有着共同的class。

再查看每个div标签，如图34所示。每个标签内部结构都是一样的，所以可以根据class编写CSS选择器。

爬取百度引擎的Python搜索结果的爬虫代码如下： 


import requests

from bs4 import BeautifulSoup



headers={

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 	(KHTML,like Gecko) Chrome/79.0.3945.88 Safari/537.36',

'Cookie':'PSTM=1593078681;BAIDUID=1D487D44FE512A2B72D79B17C511AEBA:FG=	1;BD_UPN=12314753;BDORZ=B490B5EBF6F3CD402E515D22BCDA1598;	BIDUPSID=3978FC862BDE8A5142693D114E1B0F07'



}

response=requests.get('https://www.baidu.com/s?ie=UTF-8&wd=Python',

headers=headers)

soup=BeautifulSoup(response.text,'lxml')

titles=soup.select("div.result.c-container h3")

for title in titles:

print(title.text)



图33搜索结果源代码




图34搜索结果内部节点


回顾编写这个简单爬虫的经历，首先要确定HTTP 1.1的头部信息，也就是请求方法、统一资源定位符、请求头部与请求体。请求方法，无非是GET和POST两种，前者用于获取信息，后者用于提交信息。对应在网页上，如果要在这里进行反爬虫，可以在GET获取信息页前加一层POST，让爬虫必须模拟登录后才能查看数据。同时，在请求头部的传递中，可对Cookie进行动态更新，检测用户状态。在登录提交时，还能够添加验证码，验证码的传递可以使用JS参数加密。
在构造完爬虫请求后，需要对获取的网页信息进行解析，进一步提取爬虫需要的信息，这里也可以进行反爬虫。最简单的方法是设置反调试，不让爬虫开发者打开开发者工具。此外，上述爬虫使用bs4来解析DOM树，网站开发者可以不把信息放在网页上，爬虫虽然能够看到，但却获取不到，因为这是动态渲染的结果，背后使用Ajax加载。而且这里Ajax返回的数据可以进行加密，爬虫就算找到了请求接口，看到的也只是加密数据，除非得知JS脚本中的加密算法。
接下来进行归纳，从请求角度来说，反爬虫可以在HTTP数据包里进行： 
(1) 要求用户注册登录后才能查看数据，发包形式为POST和GET的混合。
(2) 添加UserAgent、Referer或者Cookie头部校验。

(3) 增加验证码，将请求包中的参数进行JS加密。
从数据角度来说，反爬虫可以通过阻碍爬虫开发者查看网页源代码来进行： 
(1) 禁止用户右击或者按F12键，让爬虫开发者打不开开发者工具。
(2) 添加控制台反调试，使用无限循环debugger妨碍用户调试。
(3) 改变数据加载方式，使用Ajax动态加载。
(4) 进行数据加密，返回的数据通过脚本文件解密后再展示。
(5) 对加密脚本进行混淆，让爬虫人员无法阅读源代码。
可以发现，反爬虫的方法基本都是针对爬虫的固定步骤展开，爬虫开发者编写爬虫需要哪一步，反爬虫就在哪一步上设置阻碍。
3.3爬虫与反爬虫的博弈
从上述的网络爬虫原理可知，网络爬虫主要是发起HTTP请求，替代人类完成一些数据搜集工作。网络爬虫的入门和编写的门槛极低，会导致无规则恶意爬虫的流行，非正常数据提供服务的泛滥，以及线下的非法数据售卖，不仅会增加企业及公民信息外泄和被利用、被伪造的风险，也使得互联网商业竞争环境更加混乱和难以控制。
可以考虑以下三种情况。
(1) 某个爬虫开发者为了爬取自己想要的数据，在爬虫程序中使用多线程、多进程和异步，这样的爬虫在爬取目标网站时会侵占大量服务器资源，相当于进行了DDOS攻击。如果是没有太多资源的小型网站的服务器，在面对此类恶意爬虫时，就有很大概率会超出负载，发生瘫痪。
(2) 某一商品网站分发优惠券，这些资源本应当散布在关注商铺的用户手中，可个别技术人员使用网络爬虫，在优惠券分发的瞬间抢夺所有优惠券资源，之后再进行二手倒卖。
(3) 两个图片展示网站，如果其中一个网站使用网络爬虫，将另外一个网站的图片爬取下来在本站进行展示，这样被盗取图片的网站就会失去部分竞争力。
技术在需求中进步，反爬虫亦然。为了防范恶意爬虫，网站会架起反爬虫安全防护。面对的情况不同，反爬虫技术也不相同。接下来介绍图35中的爬虫开发者与网站开发者对抗的5个阶段：
1. 第一阶段
爬虫开发者： 编写简单无头爬虫爬取目标网站数据。
网站开发者： 发现大量网站资源被无头爬虫程序侵占，因此添加HTTP请求头部校验，检测Headers键值对。
2. 第二阶段
爬虫开发者： 为爬虫程序增添浏览器请求头部，用于伪装成正常用户请求。
网站开发者： 发现请求头键值对检测无效，但通过日志发现同一IP地址在短时间内发起大量HTTP请求，于是添加IP地址记录，对于频繁访问的IP地址实施封禁。
3. 第三阶段
爬虫开发者： 在爬虫程序以外构建IP代理池，用于替换被封禁的IP。
网站开发者： 发现大量低质量IP频繁访问网站，但只是请求HTML，忽略CSS与JS文件，于是重构网站，将重要数据的传输方式设置为Ajax加载。
4. 第四阶段
爬虫开发者： 在众多请求包中找出JSON数据接口，通过访问接口进行数据爬取。
网站开发者： 发现接口被找出，只好牺牲一些正常用户体验，限制为登录访问，并添加验证码，过滤爬虫机器人，在发包时进行JS参数加密。
5. 第五阶段
爬虫开发者： 注册账号模拟登录并借助深度学习神经网络，训练模型自动识别验证码。另外利用JS调试技巧，破解JS参数加密。
网站开发者： 寻求专业防火墙公司建立反爬虫防火墙。
从上述对抗过程可以看出，爬虫开发者编写的简单HTTP请求到最后转变为了包含模拟登录、IP代理池、图像识别和JS参数破解的完善网络爬虫程序，而网站开发者为了对抗爬虫不仅要承担牺牲部分用户体验的风险，还要增加网站的维护成本，加大开销。这无论如何都不是双赢的结局，开发者应该反思爬虫带来的新的网络安全问题。


图35爬虫开发者与网站开发者的对抗


3.4小结
本章讲解了爬虫与反爬虫的相关知识，使读者了解了网络爬虫的基本原理和开发流程，并讲述了爬虫与反爬虫的对抗，为下一章的常规反爬虫技术的学习打下基础。
3.5习题
1. 简述网络爬虫开发流程。

2. HTTP 1.0协议中没有规定以下哪个请求方法?
A. GETB.POSTC.PUTD.HEAD
3. 简述网络爬虫与搜索引擎的区别。
4. 使用用户延迟访问类去爬取一个网站。
5. 总结常见的反爬虫技术。