前言 互联网包含迄今为止最有用的数据集,并且大部分数据集都可以免费访问,但是这些数据难以复用,它们被嵌入在网站的结构和样式中,需要抽取出来才能使用。从网页中抽取数据的过程称为网络数据采集。随着越来越多的信息被发布到网络上,网络数据采集也变得越来越有用。 本书可作为数据科学与大数据技术专业、大数据技术与应用专业及相关专业的教学用书。针对应用型本科专业的特点,本书采用“教、学、做一体化”的教学方法,为培养高端应用型人才提供合适的教学与训练方法。本书以实际项目转化的案例为主线,按“学做合一”的指导思想,引入构思、设计、实现、运作(Conceive、Design、Implement、Operate,CDIO)工程教育方法,在完成技术讲解的同时,对读者提出相应的自学要求和指导。读者在阅读本书的过程中,不仅能快速完成基本技术的学习,而且能按工程化实践的要求进行项目的开发,并实现相应的功能。 本书作者拥有多年实际项目的开发经验和丰富的一线教育教学经验,完成了多轮次、多类型的教育教学改革与研究工作。本书在编写过程中得到了广东第二师范学院邬依林教授的大力支持。 本书的主要特点如下。 1. 实际项目开发与理论教学紧密结合 为使读者能快速掌握相关技术并按实际项目的开发要求熟练运用相关知识,本书在各章节的重要知识点后面根据实际项目设计了相关实验。 2. 组织合理、有序 本书按照由浅入深的顺序,在逐渐丰富系统功能的同时引入了相关技术与知识,使技术讲解与训练合二为一,有助于“教、学、做一体化”的实施。 为方便读者使用,书中全部实例的源码及PPT课件均免费提供给读者,读者可登录清华大学出版社官方网站(http://www.tup.tsinghua.edu.cn)下载。 本书由廖大强担任主编,其中第1章由周永塔、郑海清编写,第2~8章由廖大强编写,廖大强统编全书。 由于编者水平有限,书中的不妥或疏漏之处在所难免,殷切希望广大读者批评指正。 编者2022年2月