前言 现阶段,随着大数据和人工智能技术的研究不断深入发展,网络数据采集与清洗越来越具有较为广泛的应用范围。本书是为“数据采集与清洗”课程编写的教材,其内容选取符合教学大纲要求,以案例驱动展开,兼顾内容的广度和深度,适用面广。 本书的第1章主要阐述网络爬虫的基本概念、基本流程、爬虫合法性问题、反爬虫技术以及爬虫的预备知识。第2~9章主要讲解爬虫的各种技术,分别讨论Requests库、JSON数据爬取、XPath解析及网页数据爬取、IP代理、Selenium库、Selenium与Requests结合使用、异步爬虫、正则表达式等基本技术的实现; 爬取的内容包括HTML文档、JSON数据、图片、音频、视频,以及这些类型数据的持久化保存。第10章讲解数据的简单清洗。第11章讲解一个综合案例,结合Requests和Selenium,分别采用单线程和多线程实现对不同网站的数据爬取,并进行相应的数据清洗操作。 全书采用Python为主要描述语言。Python是一种面向对象的高级通用脚本编程语言,其语法简洁,简单易懂。相比其他语言,Python更容易配置,在字符处理方面灵活,并且在爬虫程序开发中具有先天的优势,是开发者的首选编程语言。Python最初被用于编写Shell(自动化脚本),伴随着版本不断更新以及语言新功能的加入,其作为爬虫编程语言优势更加突出。因此,越来越多的开发者选择Python用于大型爬虫项目开发。Python自带有多种爬取模板,可以利用Requests和Selenium第三方库模拟人工浏览器访问的行为,实现起来便捷; 爬虫程序爬取网页之后,需要对网页进行诸如过滤标签、提取文本等处理。Python拥有简短的文档处理功能,能够用简短代码处理绝大部分文档。 从课程性质上来讲,“数据采集与清洗”是一门专业选修课,侧重于应用。它的教学要求是: 理解互联网大数据采集的主要技术; 掌握各种典型爬虫的技术原理、技术框架、实现方法、主要开源包的使用; 理解对爬虫采集到的网页数据的处理方法及文本处理,并会使用Python进行技术实现。本书的学习过程通过案例驱动的方式展开,帮助读者贯穿爬虫、数据清洗的过程,培养读者掌握从互联网上采集数据的技术,能够独立完成数据采集和清洗工作,对培养学生的数据处理能力、信息分析与应用能力、信息表达能力具有重要作用,为后期的生产实习、毕业设计以及未来的工作奠定一定的实践基础。 本书内容以实战为主,适合高等院校相关专业的学生阅读,可以作为数据科学与大数据专业的本科或专科教材,也可以作为信息类相关专业的选修教材,也适合Python培训机构作为实训教材。讲课学时可设置为30~40学时。本书文字通俗,简单易懂,便于自学,也可供从事大数据处理等工作的科技人员参考。只需要掌握Python程序设计便可以学习本书。 配套资源 为了方便教学,本书配有微课视频、教学课件、源代码。 (1) 获取微课视频方式: 读者可以先扫描本书封底的文泉云盘防盗码,再扫描书中相应的视频二维码,即可观看教学视频。 (2) 其他资源可先扫描本书封底的文泉云盘防盗码,再扫描下方二维码,即可获取。 教学课件 源代码