前言 随着互联网的日益普及、网络技术和人类生活的交汇融合,全球数据呈现爆发式增长,人们已经进入了大数据时代。大数据是指海量数据随时间流逝而不断产生,且很难用传统计算机工具进行捕捉、处理与管理的数据集合,它对我们的影响不仅体现在商业贸易、产业格局方面,甚至上升到国家未来发展层面。另外,为主动适应新一轮科技革命与产业变革,支撑服务创新驱动发展、“中国制造2025”等一系列国家战略,2019年5月,教育部等12部委启动“六卓越一拔尖”计划2.0工程,开始全面推进“新工科”“新医科”“新农科”“新文科”建设,先后形成了“复旦共识”“天大行动”和“北京指南”,并发布了《关于开展新工科研究与实践的通知》《关于推进新工科研究与实践项目的通知》。在大数据时代“新工科”“新文科”建设背景下,对数据的处理、分析及运用其背后的信息指导决策、提高竞争力需求迫切,对广大高等院校知识授予和人才培养也提出了新的要求。大数据时代需要能熟练掌握大数据技术、有效挖掘数据价值的人才。大数据基础素养的培养不应该仅作为专业教育目标,而应该尽早渗透至各专业、各领域的知识学习和运用中。新时代人才应具备将自身专业学科知识体系与信息科学新技术、新方法相融合的能力,从而借助信息技术开阔专业视野,优化思维体系。鉴于此,在高校人才培养中加强信息化技术教学、融合大数据意识和技术显得尤为重要,这已在我国教育界形成广泛共识。 为满足大数据时代“新工科”“新文科”建设背景下高校人才培养对信息技术基础知识及大数据基础素养能力的新要求,结合不同学生的学科和专业特点,根据《中国高等院校计算机基础教育课程体系2014》(清华大学出版社,2014)的要求,我们组织多年从事大学信息基础通识课程教学和科研工作的教师,结合信息科学和大数据技术最新的应用技术和研究成果,编写了此书。 本书的内容以大数据分析技术及应用为核心,共分7章。第1章介绍信息技术与大数据分析基础,内容包括信息社会与计算机、计算机基础知识、大数据基础知识、大数据分析理论方法和大数据分析应用前沿等,让读者建立信息科学与相关技术的基础概念,并对大数据分析的基本思路、对象、平台和模型有一个初步的认识; 第2章介绍大数据分析主要工具,包括百度AI Studio平台介绍、Python语言的基础知识等,让读者对大数据分析的实现工具、平台和方法有初步的认识; 第3章介绍信息网络的基础知识和网络爬虫工具的相关内容,以及获取大数据分析所需的原始数据集的方法; 第4章和第5章分别介绍大数据技术应用过程中文本与表格数据处理和管理方法,包括Office 2016工具包中的Word、Excel和PowerPoint的使用方法,让读者了解使用上述工具进行简单的结构化与非结构化数据处理和展示的方法; 第6章介绍数据分析相关理论与方法,包括数据分析基础、描述性统计分析、投资决策分析、时间序列预测分析和相关分析与回归分析等,引导读者利用Excel 2016工具进行简单的数据分析,从海量数据集中挖掘和提取关键决策信息,完成数据分析的应用和实践; 第7章通过两个大数据分析综合案例将前6章相关理论知识、方法和工具进行串联,引导读者完成包括数据获取、数据预处理、数据分析、结果展示在内的大数据分析实战任务。除上述内容外,本书还涉及各类信息技术工具和软件的基础介绍和应用实践,包括Windows 10操作系统、百度AI Studio云计算平台、Python 3程序设计语言、Office 2016办公软件等,这些内容均根据全国计算机等级考试MS Office高级应用与Python语言程序设计科目的考试大纲和要求编写,软件与语言版本均与计算机二级考试要求一致。 通过本书的学习,读者将对信息技术及计算机基础知识、大数据基础知识、Internet、网络爬虫、数据处理与数据分析等内容有一个较为全面的认识和理解,并能基于百度AI Studio平台,熟练掌握利用Python程序设计语言和Office 2016软件完成简单的数据获取、数据预处理、数据分析和数据展示等大数据分析技术的应用方法,为学习信息科学相关后续课程和利用信息科学的有关知识与工具解决本专业及相关领域的问题打下良好的基础。本书内容丰富,案例典型,教师在讲授过程中可根据需要对部分章节的内容和案例进行选择。为保证教学内容的连贯性,建议教师按照原始章节顺序介绍大数据分析技术的应用路线与过程,如有需要,也可提前介绍第4章、第5章有关Office 2016的相关基础内容,以便开展课程实践教学。 配套资源 为便于教与学,本书配有930分钟微课视频、源代码、案例素材、教学课件、教学大纲、教学进度表。为便于阅读理解,本书的部分图片在印制纸质版的同时,还提供了电子版彩图。 (1) 获取微课视频方式: 读者可以先扫描本书封底的文泉云盘防盗码,再扫描书中相应的视频二维码,观看教学视频。 (2) 获取源代码和案例素材以及彩色图片的方式: 扫描下方二维码,即可获取。 源代码和案例素材 彩色图片 (3) 其他配套资源可以扫描本书封底的“书圈”二维码,关注后回复本书的书号即可下载。 本书在《大数据分析导论》(ISBN: 9787302561781)基础上进行了修订。对部分章节结构和名称进行了调整,使其更加清晰地反映大数据分析应用的核心思路。同时对部分章节内容进行了优化和更新,更加突出当前信息技术及大数据领域的前沿发展动态和成果。最后考虑本书内容具有很强的实践性,加入了新章节 “第7章大数据分析实战”,设计了两个贯穿全书各章知识体系的大数据分析综合案例,让读者通过实践操作进一步加深对相关理论、方法和工具的认识。 本书内容完整,文字深入浅出,理论知识通俗易懂,可作为大数据时代“新文科”与“新工科”建设背景下高等院校信息科学与大数据分析导论的教学用书,十分适合非计算机专业人士自学使用,也可以作为全国计算机等级考试二级MS Office与Python语言程序设计的重要参考用书。 本书由金大卫任主编并负责全书的统稿工作,由吴良霞、沈计、鲁敏任副主编。参与本书编写工作的老师还有易思华、刘琪、陈旭、范爱萍、周巍、黄任众等,其中,第1章由吴良霞执笔,第2章由鲁敏执笔,第3章由刘琪、陈旭、易思华执笔,第4章由范爱萍、周巍执笔,第5章由黄任众执笔,第6章由沈计执笔,第7章由沈计、陈旭执笔。 本书在编写过程中得到了中南财经政法大学教务部、信息与安全工程学院领导和老师们的大力支持,同时清华大学出版社为本书的顺利出版付出了很大的努力,本书部分图片取自互联网,部分文字也参考了网上内容,在此对相关作者一并致以深深的谢意。 尽管编者对本书内容进行了反复修改,但由于水平和时间有限,书中疏漏之处在所难免,敬请读者提出宝贵意见,以便修订时更正。 编者 2022年5月