前言

本书第1版自2020年1月由清华大学出版社出版以来，被国内多所院校选为教材，深受师生好评，教学成果显著。此次改版在第1版的基础上增加了许多新的大数据技术，使得本书能够紧跟大数据的发展潮流。
大数据是现代社会高科技发展的产物，相对于传统的数据分析，大数据是海量数据的集合，它以采集、整理、存储、挖掘、共享、分析、应用、清洗为核心，正广泛地应用在军事、金融、环境保护、通信等各个行业中。
当前，发展大数据已经成为国家战略，大数据在引领经济社会发展中的新引擎作用更加明显。2014年“大数据”首次出现在我国的《政府工作报告》中。报告中说道，要设立新兴产业创业创新平台，在大数据等方面赶超先进，引领未来产业发展。“大数据”概念逐渐在国内成为热议的词汇。2015年国务院正式印发《促进大数据发展行动纲要》，《纲要》明确指出要不断地推动大数据发展和应用，在未来打造精准治理、多方协作的社会治理新模式，建立运行平稳、安全高效的经济运行新机制，构建以人为本、惠及全民的民生服务新体系，开启大众创业、万众创新的创新驱动新格局，培育高端智能、新兴繁荣的产业发展新生态。

本书共10章，主要包括大数据概述、爬虫和大数据相关技术、Scrapy爬虫、Python与MySQL数据库连接与查询、数据可视化基础与应用、大数据存储与清洗、数据格式与编码技术、数据抽取与采集、pandas数据分析与清洗以及综合实训。
本书特色如下: 
（1） 采用“理实一体化”教学方式，课堂上既有老师的讲述又有学生独立思考、上机操作的内容。
（2） 紧跟时代潮流，注重技术变化，书中包含了最新的大数据分析知识及一些开源库的使用。建议读者在阅读本书时使用Python 3.7以上版本，并提前安装好所需要的扩展库（如requests、Scrapy、numpy、pandas、matplotlib等）。此外，读者在阅读本书时还需安装MySQL以及Kettle等相关软件。
（3） 编写本书的教师都具有多年的教学经验，书中内容重难点突出，能够激发学生的学习热情。
（4） 配套资源丰富，包含教学大纲、教学课件、电子教案、习题答案、程序源码、在线作业、微课视频等多种教学资源。


资源下载提示

课件等资源： 扫描封底的“课件下载”二维码，在公众号“书圈”下载。

素材（源码）等资源： 扫描目录上方的二维码下载。

在线作业： 扫描封底的作业系统二维码，登录网站在线做题及查看答案。

视频等资源： 扫描封底的文泉云盘防盗码，再扫描书中相应章节中的二维码，可以在线学习。

本书可作为高等院校大数据专业、人工智能专业、软件技术专业、云计算专业、计算机网络专业的专业课教材，也可作为大数据爱好者的参考书。
本书建议学时为80学时，具体分布如下表所示: 






章节建 议 学 时
大数据4
爬虫与大数据12
Scrapy爬虫8
数据库连接与查询6
数据可视化基础与应用10
大数据存储与清洗6
数据格式与编码技术6
数据抽取与采集12
pandas数据分析与清洗12
综合实训4

本书由黄源、蒋文豪、龙颖编著。其中，黄源编写了第1章、第3章、第4章、第6~10章； 蒋文豪编写了第2章； 龙颖编写了第5章。全书由黄源负责统稿工作。
在本书的编写过程中，编者得到了中国电信金融行业信息化应用重庆基地总经理助理杨琛的大力支持，同时清华大学出版社的魏江江分社长和王冰飞编辑为本书的出版做了大量的工作，在此一并表示感谢。
由于编者水平有限，书中难免出现疏漏之处，衷心希望广大读者批评指正。
编者
2022年7月于重庆