前言
党的二十大报告中指出: 教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑。必须坚持科技是第一生产力、人才是第一资源、创新是第一动力,深入实施科教兴国战略、人才强国战略、创新驱动发展战略,这三大战略共同服务于创新型国家的建设。高等教育与经济社会发展紧密相连,对促进就业创业、助力经济社会发展、增进人民福祉具有重要意义。

随着信息技术的迅猛发展和互联网的普及,人类已经积累了海量的数据,而且这些数据还在不断地、快速地以指数级的速度增长。根据国际著名数据调查公司IDC在2021年的估计,全世界数据库中的数据量正以每20个月翻一番的速度增长。数据挖掘作为一种大有前途的工具和方法引起了产业界和学术界的极大关注,形成了信息领域的热点。本书中的案例采用Python语言编写。Python具有代码开源、简洁易读、科学计算软件包丰富的特点,已成为很多高校和研究机构进行教学和科学计算的语言。

本书结合编者多年从事数据挖掘课程教学、开发智能数据分析项目的经验,利用Python作为工具,以实用的案例,系统地讲解了数据挖掘的相关算法及其应用。全书共10章,分为四篇。

第1篇为基础篇,由第1~3章组成。第1章介绍数据挖掘的定义和发展过程、数据挖掘的经典算法和应用领域等; 第2章介绍Python用于数据分析的基础知识; 第3章介绍数据挖掘中常用的Python处理模块。

第2篇为数据预处理篇,由第4章和第5章组成。第4章介绍数据的描述与可视化,首先讲解属性类型和数据对象,然后讲解数据对象的相似性度量和数据的可视化; 第5章介绍数据采集和预处理,首先讲解数据的采集,然后讲解缺失值清洗、异常值清洗等,接着讲解数据标准化、数据归约、数据变换与数据离散化。

第3篇为数据挖掘算法描述和应用篇,由第6~9章组成。第6章首先讲解数据分类的基本概念、分类挖掘的一般流程,然后讲解KNN分类模型、Rocchio分类模型、决策树分类模型、贝叶斯分类模型、支持向量机等相应算法的原理和Python实现; 第7章首先讲解聚类分析的基本概念,然后讲解基于划分、层次、密度、网格、模型的聚类方法及其应用和Python实现; 第8章首先讲解频繁项集、最小支持度、最小置信度、强关联规则、兴趣度、提升度等概念,然后讲解Apriori算法、FPGrowth算法、Eclat算法的原理及Python实现; 第9章首先讲解预测分析的一般步骤,然后讲解回归分析预测模型、趋势外推法预测模型、时间序列预测法模型的概念及应用。

第4篇为后续学习引导篇,由第10章组成。第10章首先讲解深度学习的发展和基本概念,然后讲解深度学习的几种经典模型与算法,即常用的卷积神经网络、循环神经网络、生成对抗网络等。

本书具有如下特色: 

(1) 在逻辑安排上循序渐进,由浅入深,便于读者系统学习。

(2) 内容丰富,信息量大,融入了大量本领域的新知识和新方法。

(3) 重要知识点配有与理论内容相结合的案例分析,并采用Python语言编程实现。

(4) 在内容选取、章节安排、难易程度、例子选取等方面充分考虑理论教学和实践教学的需要,力求使教材概念准确、清晰、重点明确,内容精练,便于取舍。每章均配有习题,便于教学。

为便于教学,本书提供丰富的配套资源,包括教学大纲、教学课件、在线作业、习题答案、实验指导和实训指导。


资源下载提示

课件等资源: 扫描封底的“课件下载”二维码,在公众号“书圈”下载。

在线作业: 扫描封底的作业系统二维码,登录网站在线做题及查看答案。



为了方便对数据挖掘课程的学习及数据挖掘技术的应用,编者还组织编写了配套教材《Python数据挖掘算法与应用实验及课程实训指导》,作为读者学习本课程时的实践用书。

清华大学出版社的魏江江分社长和王冰飞老师对本书的编写给出了指导性的意见,张囡囡老师参与了本书的部分工作,在此表示衷心的感谢。

本书使用Python 3.6版本进行实验。

由于编者水平有限,书中疏漏之处在所难免,殷切希望广大读者批评指正。



编者2024年1月