前言 大数据是现代社会高科技发展的产物。大数据相对于传统的数据分析,它是海量数据的集合,它以采集、整理、存储、挖掘、共享、分析、应用、清洗为核心,正广泛地应用在军事、金融、环境保护、通信等各个领域中。 当前,发展大数据已经成为国家战略,大数据在引领经济社会发展中的新引擎作用更加明显。2014年“大数据”首次出现在我国《政府工作报告》中。报告中提到,要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。“大数据”一词逐渐在国内成为热议的词汇。2015年国务院正式印发《促进大数据发展行动纲要》,《纲要》明确指出要不断地推动大数据发展和应用,在未来打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。 本书以理论与实践操作相结合的方式深入地讲解了大数据分析的基本知识和实现的基本技术,在内容设计上既有上课时教师的讲述部分,包括详细的理论与典型的案例,又有大量的实训环节,双管齐下,可极大地激发学生在课堂上的学习积极性与主动创造性,让学生在课堂上跟上老师的思维,从而学到更多有用的知识和技能。 本书共10章,主要包括大数据、爬虫与大数据、Scrapy爬虫、数据库连接与查询、数据可视化基础与应用、大数据存储与清洗、数据格式与编码技术、数据抽取与采集、pandas数据分析与清洗,以及数据分析与清洗综合实训。 本书有如下特点。 (1) 采用“理实一体化”教学方式,课堂上既有教师的讲述,又有学生独立思考、上机操作等内容。 (2) 配套资源丰富,本书提供教学大纲、教学课件、电子教案、习题答案、程序源码等多种教学资源,扫描封底的课件二维码可以下载; 本书还提供150分钟的视频讲解,扫描书中相应位置的二维码可以在线观看、学习。 (3) 紧跟时代潮流,注重技术变化,书中包含了最新的大数据分析知识及一些开源库的使用。 (4) 编写本书的教师都具有多年的教学经验,重难点突出,能够激发学生的学习热情。 本书可作为大数据专业、软件技术专业、信息管理专业、计算机网络专业的教材,也可作为大数据爱好者的参考书。 本书建议学时为80学时,具体分布如下表所示。 章节建 议 学 时章节建 议 学 时 大数据4大数据存储与清洗6 爬虫与大数据12数据格式与编码技术6 Scrapy爬虫8数据抽取与采集12 数据库连接与查询6pandas数据分析与清洗12 数据可视化基础与应用10数据分析与清洗综合实训4 本书由黄源、蒋文豪、徐受蓉编写。其中,黄源编写了第1章、第6~10章; 蒋文豪编写了第2章,蒋文豪和黄源共同编写了第3章; 徐受蓉编写了第4章和第5章。徐受蓉教授对书中内容进行了审阅工作,全书由黄源负责统稿工作。 本书是校企合作共同编写的结果,在编写过程中得到了中国电信金融行业信息化应用重庆基地总经理助理杨琛的大力支持。 在编写过程中,我们参阅了大量的相关资料,在此表示感谢! 由于编者水平有限,书中难免出现疏漏之处,恳请广大读者批评指正。 编者 2019年10月于重庆