前言 随着物联网、移动互联网、智能终端、Web 2.0、云计算和大数据等新兴信息技术的快速发展,以社交网络、社区、博客和电子商务为代表的新型应用得到广泛使用,这些应用不断产生大量的数据。人们往往期盼了解大数据中所隐含的有价值的知识和数据间有价值的潜在联系,“数据挖掘”是实现这些期盼的有力工具。 数据挖掘是一个在海量数据中利用各种分析工具发现模型与数据间关系的过程,它可以帮助决策者寻找数据间潜在的某种关联,发现被隐藏和被忽略的因素,因而被认为是在这个数据爆炸时代深层次认识数据、有效利用数据的一种有效方法。 Python具有开源、简洁易读、快速上手、多场景应用以及完善的生态和服务体系等优点,使其在挖掘领域中的地位显得尤为突出,Python已经当仁不让地成为数据挖掘人员的一把“利器”。 1. 本书编写特色 内容系统全面: 全面介绍了数据挖掘的经典和主流算法。 原理浅显易懂: 循序渐进地阐述了各类数据挖掘算法的原理。 配套视频教程: 提供配套视频讲解数据挖掘算法实现。 算法代码实现: 使用Python 3.7.x实现书中所有算法。 2. 本书内容组织 第1章 绪论。本章主要介绍什么是数据分析,什么是数据挖掘,数据挖掘的步骤,数据挖掘的典型应用和数据挖掘的主要挑战。 第2章 NumPy科学计算库。本章主要介绍ndarray多维数组,数组元素的索引、切片和选择,随机数数组,数组的运算,以及读写数据文件。 第3章 pandas数据分析库的数据结构。本章主要介绍Series结构,DataFrame结构,读取、修改和删除DataFrame的数据,以及检查 DataFrame对象是否包含指定的值。 第4章 pandas数据读写与可视化。本章主要介绍pandas读写CSV文件,读取TXT文件,读写Excel文件,以及pandas数据可视化。 第5章 pandas数据整理。本章主要介绍数据运算与排序,数据集成,数据筛选,删除指定的行或列,重新命名列名、行名和重新索引,缺失值处理,异常值处理,重复值处理,数据替换、更新与转换,噪声数据处理,数据规范化,数据离散化,数据归约和数据降维。 第6章 pandas数据分析。本章主要介绍数据抽样,数据分组与聚合,描述性和相关性数据分析,以及数据分析综合实战。 第7章 决策树分类。本章主要介绍相异度和相似度,分类概述,决策树分类概述,ID3决策树,C4.5决策树的分类算法,以及CART决策树。 第8章 贝叶斯分类。本章主要介绍贝叶斯定理,朴素贝叶斯分类的原理与分类流程,高斯朴素贝叶斯分类,多项式朴素贝叶斯分类和伯努利朴素贝叶斯分类。 第9章 支持向量机分类和K近邻分类。本章主要介绍支持向量机概述,线性支持向量机,Python实现支持向量机,K近邻分类。 第10章 神经网络分类。本章主要介绍神经元,感知器和BP神经网络。 第11章 回归。本章主要介绍回归概述,一元线性回归,多元线性回归,非线性回归和逻辑回归。 第12章 聚类。本章主要介绍聚类概述,k均值聚类,层次聚类方法,以及密度聚类。 第13章 关联规则挖掘。本章主要介绍关联规则挖掘概述,频繁项集的产生,关联规则的产生,以及FP增长算法。 第14章 推荐系统。本章主要介绍推荐系统的概念,基于内容的推荐,基于用户的协同过滤推荐,以及基于物品的协同过滤推荐。 第15章 电商评论网络爬取与情感分析。本章主要介绍网络爬虫概述,使用BeautifulSoup库提取网页信息,使用urllib库编写简单的网络爬虫,爬取京东小米手机评论,以及对手机评论文本进行情感分析。 3. 本书适用范围 高等院校各专业的数据挖掘、数据分析课程教材。 数据挖掘、数据分析人员的参考书。 在本书编写和出版过程中得到了铜陵学院、清华大学出版社的大力支持和帮助,在此表示感谢。 在本书的撰写过程中,参考了大量专业书籍和网络资料,在此向这些作者表示感谢。 由于编写时间仓促,编者水平有限,书中肯定存在疏漏和不足,热切期望得到专家和读者的批评指正,在此表示感谢。如果遇到任何问题,或有更多的宝贵意见,欢迎发送邮件至邮箱bailj@tup.tsinghua.edu.cn,期待能够收到您的真挚反馈。 编者2025年1月