前言 大数据是现代社会高科技发展的产物,相对于传统的数据分析,大数据是海量数据的集合,它以采集、整理、存储、清洗、挖掘、分析、应用、可视化为核心,广泛地应用在社会的各个行业中。特别是在数字经济时代,数据已成为重要的生产力,对价值创造和生产力发展有广泛影响,推动人类社会迈向一个网络化连接、数据化描绘、融合化发展的数字经济新时代。 当前,发展大数据已经成为国家战略,大数据在引领经济社会发展中的新引擎作用更加明显。在大数据专业的人才培养上,高校培养的大数据人才首先应具备获取大数据的能力。例如,能根据任务要求,综合利用各种计算机技术和知识,收集、整理海量数据并加以存储,为支撑相关决策和行为做好数据准备。其次,应具备分析大数据的能力,能根据具体需求,采用有效方法和模型分析数据,并形成报告,为实际问题提供决策依据。最后,还应具备良好的团队合作精神。 本书共10章,包括大数据介绍、云计算基础、大数据架构、数据采集、数据清洗、大数据存储、大数据分析与挖掘、大数据可视化、大数据安全和大数据的行业应用。 本书特色 (1) 采用“理实一体化”教学方式,课堂上既有教师的讲述,又有学生独立思考、上机操作的内容。 (2) 紧跟时代潮流,注重技术变化,书中包含了最新的大数据技术知识和一些开源库的使用。建议读者在阅读本书时使用Python 3.7及以上版本,并提前安装好所需要的扩展库(如requests、Scrapy、numpy、pandas、matplotlib等)。此外,读者还需安装MySQL和Kettle等相关软件。 (3) 本书编者都具有多年的教学经验,书中重难点突出,能够激发学生的学习热情。 (4) 为便于教学,本书提供丰富的配套资源,包括教学大纲、教学课件、电子教案、习题答案、在线作业和微课视频。 资源下载提示 课件等资源: 扫描封底的“课件下载”二维码,在公众号“书圈”下载。 素材(源码)等资源: 扫描目录上方的二维码下载。 在线作业: 扫描封底的作业系统二维码,登录网站在线做题及查看答案。 视频等资源: 扫描封底的文泉云盘防盗码,再扫描书中相应章节中的二维码,可以在线学习。 教学建议 本书建议学时为60学时,具体分布如下。 章节建 议 学 时 大数据介绍4 云计算基础4 大数据架构8 数据采集6 数据清洗8 大数据存储6 大数据分析与挖掘8 大数据可视化6 大数据安全4 大数据的行业应用6 本书由黄源担任主编,李兵川、何浩、邓宇沁和杨瑞峰担任副主编。其中,黄源编写第1章、第5~10章; 李兵川编写第2章; 何浩和邓宇沁共同编写第3章; 杨瑞峰和黄源共同编写第4章。全书由黄源负责统稿工作。 在本书的编写过程中,中国电信金融行业信息化应用重庆基地总经理助理杨琛给予了大力支持,清华大学出版社的编辑做了大量工作,在此一并表示感谢。 由于编者水平有限,书中难免存在疏漏之处,衷心希望广大读者批评、指正。 编者 2022年6月于重庆