前言 目前,市场上单纯地介绍数据挖掘理论的教材比较多,这类教材在国内存在着以下明显问题: 一是数据挖掘的应用案例比较粗略,问题也比较简单,分析过程不具体,难以支撑数据挖掘的实验和实训教学,而实践教学却是培养数据分析应用人才非常重要、不可或缺的环节; 二是数据量比较小,分析的问题只是实际问题的模拟,数据分析的深度、算法的复杂度还达不到数据挖掘教学的要求; 三是难度适中、适合教学、能满足实战性要求的教材不多。本书是作者针对目前数据挖掘对学生实践能力要求高的特点,通过分析目前高等学校“数据挖掘”课程教学的痛点,即与实际应用结合不紧密等问题而编写的实验、实训教材。 作者深耕数据挖掘多年,与企业合作成功实施了多项数据分析的项目,熟悉数据挖掘的基本原理,并对Python编程比较熟悉,积累了一些详细的案例,这为本书的写作奠定了基础。 Python语言在高等学校已经被各类专业的大学生选修,数据分析也成为一种基本的技能。为适应高等学校“数据挖掘”课程的教学,本书使用Python语言对原有的部分案例进行重新改写,并且增加了几个综合性的案例。 本书是在第1版的基础上进行的修订、改版。书中使用Tableau、Python等数据分析工具和语言,通过精心选择应用场景、设计面向实际问题的解决思路,突出数据分析过程中常遇到的问题。学生参考这些案例,不仅能消化理解Python主流机器学习库的基本用法,还能针对实际问题进行一定深度的分析,具有较强的实用性。此外,学生可以模仿实验,举一反三,针对新问题提出合理的解决思路。 本书还引进了Intel公司的机器学习开源加速器OneAPI的相关内容,可以针对数据量比较大的情况,提升决策树、随机森林、回归分析、逻辑回归、神经网络、聚类等常用的数据挖掘算法的训练速度。这在实际工程中是非常必要的。 为了便于学生自学,本书配套相应的课件、实验数据、Python代码和思考题。学生可以根据书中的思路进行实验,思考其中的数据预处理和数据建模方法,并在此基础上解决新的问题。 在本书的编写过程中,研究生周一航、李欣迪、吴乾奕、陈思玲、纪振宇、张洁莹等同学在资料收集等方面做了很多工作,在此一并表示感谢。由于作者水平有限,书中难免存在不足之处,敬请读者批评指正。 赵卫东2024年1月于复旦大学