前言 “洞悉先于人,数据赢天下”。随着大数据时代的到来,数据已成为重要的生产要素和国家基础性战略资源,数据分析 与挖掘的相关理论和技术在各行各业的应用也有了质的飞越。数据分析与挖掘可以从海量数据中找到具有参考意义的模式和规则,转换成有价值的信息、洞察或知识,并创造更多的新价值。数据分析与挖掘综合了人工智能、概率论、线性代数、统计学和数据库等多学科知识,要求相关从业人员既要掌握大量相关理论知识和算法原理,又能熟练运用编程语言进行开发和实践。 Python语言具有语法简洁、功能强大、扩展库丰富、开源免费等特点,可高效完成数据统计分析、数据挖掘、可视化等任务,是目前数据分析与挖掘、机器学习和人工智能等领域广泛应用的一门编程语言。 本书基于Python语言,全面系统地介绍了运用Python进行数据分析与挖掘的基本概念与方法。 全书分为四部分,共13章。第一部分主要讲解Python基础知识,包括第1~4章,重点介绍Python基础语法、函数和面向对象知识; 第二部分主要讲解Python中数据分析的相关库,包括第5~7章,主要介绍使用NumPy和Pandas进行统计分析、分组与聚合、交叉分析,以及使用Matplotlib进行数据可视化的方法; 第三部分主要讲解数据挖掘的理论与算法应用,包括第8~10章,重点介绍数据挖掘的相关概念、常用算法原理和实践应用; 第四部分为综合案例,包括第11~13章,通过3个完整案例详细介绍了数据分析与挖掘的步骤和方法。 本书特色如下。 (1) 体系完整,结构合理。本书按照“Python基础知识—数据分析相关库—数据挖掘理论与算法应用—综合案例”的学习主线,循序渐进地介绍数据分析与挖掘从理论到实践的全过程。 (2) 案例主导,实践性强。本书为每个知识点设计了丰富的典型性案例,并用3个综合案例 帮助 读者加深对全书知识的理解。通过理论知识与编程实践的充分结合,有效引导读者更好地理解和掌握数据分析与挖掘的知识,并快速开展编程实践。 (3) 内容丰富,注重应用。各章除了章节要点、主体知识点阐述和实战案例模块外,还设置了 小结和习题等模块,帮助读者进一步掌握和巩固重点和难点知识,提高应用能力。 为便于教学,本书提供丰富的配套资源,包括教学大纲、教学课件、电子教案、程序源码和习题答案。 资源下载提示 课件等资源: 扫描封底的“课件下载”二维码,在公众号“书圈”下载。 素材(源码)等资源: 扫描目录上方的二维码下载。 本书可作为高等学校大数据管理与应用、数据科学与大数据技术、计算机科学与技术等相关专业的教材,也可作为数据分析与挖掘相关从业人员的参考书。 由于编者水平有限,书中不当之处在所难免,欢迎广大读者批评指正。 在本书的编写过程中得到了北京市数字教育研究课题(No.BDEC2022619037)和国家自然科学基金(No.62172287)的资助,在此表示衷心的感谢。 编者2023年8月