前言 随着大数据、互联网技术的飞速发展,每天都会产生海量的数据,可以说数据无处不在。政府、企业和学界都已充分认识到数据的重要性。面对海量数据,如何进行汇总、整合、分析,是摆在大家面前的一个重要议题。 数据分析是指为了提取有用的信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析涵盖的内容很广,涉及领域包括数学、统计学、计算机科学以及数据科学等。在大数据和人工智能时代,对数据分析专业人才的需求日益旺盛,同时对于其他行业,具备数据分析能力的复合人才同样不可或缺。 欲善其事,先利其器。近年来,Python语言在数据分析、数据挖掘、机器学习等领域中的应用越来越普及,除了Python语言自身简洁优雅,具有良好的可扩展性和跨平台性等优点外,其完善的计算生态和大量优秀的第三方库的支持是Python能够称为诸多新兴计算领域主流工具的一个重要原因。 对于广大高等院校的学生而言,不论所学专业,初步掌握数据分析的理论、方法和工具同样大有裨益。本书作者所在高校近年来一直在持续推进计算机公共基础课程教学的改革,结合不同专业的特点经充分研究论证后,制定了分层次的计算机课程教学体系。第一层次注重计算机基础理论、计算思维和程序设计能力的培养; 第二层次侧重数据分析基本方法和技能的培养。经过多个教学周期的积累和总结,在教学内容、方法以及实践操作等方面有了一定的心得和经验,本书便是在近年来数据分析课程的教学基础上加以总结、提炼,编写而成的。 参与编写本书的作者均为天津财经大学管理科学与工程学院管理信息系统系教师。其中,单春玲负责编写第1章和第5章; 韩瀛负责编写第2章和第3章; 李欢负责编写第4章; 薛福亮担任主编并负责编写第6章和第7章。 本书编写过程中,得到清华大学出版社的大力支持,在此对各位编辑的辛勤工作表示衷心感谢。此外,我们还参考了很多学者的著作并从中汲取了很多有益的知识和思想,在此一并表示感谢。 由于作者水平有限且成书时间仓促,书中不足之处在所难免,敬请各位同行和读者批评指正。 作者 2021年5月