前言
现阶段，随着大数据和人工智能技术的研究不断深入发展，网络数据采集与清洗越来越具有较为广泛的应用范围。本书是为“数据采集与清洗”课程编写的教材，其内容选取符合教学大纲要求，以案例驱动展开，兼顾内容的广度和深度，适用面广。
本书的第1章主要阐述网络爬虫的基本概念、基本流程、爬虫合法性问题、反爬虫技术以及爬虫的预备知识。第2~9章主要讲解爬虫的各种技术，分别讨论Requests库、JSON数据爬取、XPath解析及网页数据爬取、IP代理、Selenium库、Selenium与Requests结合使用、异步爬虫、正则表达式等基本技术的实现； 爬取的内容包括HTML文档、JSON数据、图片、音频、视频，以及这些类型数据的持久化保存。第10章讲解数据的简单清洗。第11章讲解一个综合案例，结合Requests和Selenium，分别采用单线程和多线程实现对不同网站的数据爬取，并进行相应的数据清洗操作。
全书采用Python为主要描述语言。Python是一种面向对象的高级通用脚本编程语言，其语法简洁，简单易懂。相比其他语言，Python更容易配置，在字符处理方面灵活，并且在爬虫程序开发中具有先天的优势，是开发者的首选编程语言。Python最初被用于编写Shell(自动化脚本)，伴随着版本不断更新以及语言新功能的加入，其作为爬虫编程语言优势更加突出。因此，越来越多的开发者选择Python用于大型爬虫项目开发。Python自带有多种爬取模板，可以利用Requests和Selenium第三方库模拟人工浏览器访问的行为，实现起来便捷； 爬虫程序爬取网页之后，需要对网页进行诸如过滤标签、提取文本等处理。Python拥有简短的文档处理功能，能够用简短代码处理绝大部分文档。
从课程性质上来讲，“数据采集与清洗”是一门专业选修课，侧重于应用。它的教学要求是： 理解互联网大数据采集的主要技术； 掌握各种典型爬虫的技术原理、技术框架、实现方法、主要开源包的使用； 理解对爬虫采集到的网页数据的处理方法及文本处理，并会使用Python进行技术实现。本书的学习过程通过案例驱动的方式展开，帮助读者贯穿爬虫、数据清洗的过程，培养读者掌握从互联网上采集数据的技术，能够独立完成数据采集和清洗工作，对培养学生的数据处理能力、信息分析与应用能力、信息表达能力具有重要作用，为后期的生产实习、毕业设计以及未来的工作奠定一定的实践基础。
本书内容以实战为主，适合高等院校相关专业的学生阅读，可以作为数据科学与大数据专业的本科或专科教材，也可以作为信息类相关专业的选修教材，也适合Python培训机构作为实训教材。讲课学时可设置为30~40学时。本书文字通俗，简单易懂，便于自学，也可供从事大数据处理等工作的科技人员参考。只需要掌握Python程序设计便可以学习本书。

配套资源
为了方便教学，本书配有微课视频、教学课件、源代码。
（1） 获取微课视频方式： 
读者可以先扫描本书封底的文泉云盘防盗码，再扫描书中相应的视频二维码，即可观看教学视频。
（2） 其他资源可先扫描本书封底的文泉云盘防盗码，再扫描下方二维码，即可获取。



教学课件




源代码