前言 随着大数据时代的到来,对“挖掘”到的数据要求变得越来越严格。数据挖掘(Data Mining, DM)是一门新兴的、汇聚多个学科的交叉性学科,也是从海量的数据中将未知、隐含及具备潜在价值的信息进行提取的过程。数据挖掘将高性能计算、机器学习、人工智能、模式识别、统计学、数据可视化、数据库技术和专家系统等多个范畴的理论和技术融合在一起。各行各业通过对海量数据的分析与挖掘,建立适当的体系,不断地优化,提高了决策的准确性,从而更利于掌握并顺应市场的变化。 本书系统地介绍了数据分析和数据挖掘的基础知识、典型的机器学习模型及利用Python实现数据挖掘与机器学习的过程。本书将基础理论、模型应用以及项目实践充分结合,有利于读者充分掌握与应用所学内容。 本书主要内容 全书共分为两大部分,共有19章。 第一部分数据分析与挖掘,包括第1~15章。第1章数据分析与挖掘简介,包括Python数据分析和挖掘任务中重要的库与工具、Anaconda安装、Jupyter Notebook。第2章爬虫,包括爬虫的基本流程、HTTP、安装PyCharm、应用举例。第3章Scrapy爬虫框架,包括基本原理、应用举例。第4章NumPy基本用法,包括NumPy创建数组、NumPy查看数组属性、数组的基本操作、NumPy运算、排序。第5章Pandas基本用法,包括Series、DataFrame、应用举例。第6章Matplotlib基本用法,包括线型图、散点图、直方图、条形图、饼图、Seaborn、Pandas中的绘图函数。第7章线性回归、岭回归、Lasso回归,包括原理、应用举例。第8章Logistic回归分类模型,包括原理、应用举例。第9章决策树与随机森林,包括原理、应用举例。第10章KNN模型,包括原理、应用举例。第11章朴素贝叶斯模型,包括原理、应用举例。第12章SVM模型,包括原理、应用举例。第13章Kmeans聚类,包括原理、应用举例。第14章关联规则——Apriori算法,包括原理、应用举例。第15章数据分析与挖掘项目实战,包括贷款预测问题、客户流失率问题。 第二部分机器学习,包括第16~19章。第16章主成分分析法,包括原理、应用举例。第17章集成学习,包括原理、应用举例。第18章模型评估,包括分类评估、回归评估、聚类评估、Scikitlearn中的评估函数。第19章初识深度学习框架Keras,包括关于Keras、神经网络简介、Keras神经网络模型、用Keras实现线性回归模型、用Keras实现鸢尾花分类、Keras目标函数、性能评估函数、激活函数说明。 本书特色 (1) 本书目标明确,是为初学者量身定做的入门教程,内容系统全面,各章节相互独立,读者可以根据自己的需求选择使用。 (2) 本书面向应用型人才培养编写,将原理的叙述进行精简,易于理解,辅以Python代码进行实践与应用,使读者通过实例更好地理解和掌握知识点。 配套资源 为便于教与学,本书配有150分钟微课视频、源代码、数据集、教学课件、教学大纲、教学日历。 (1) 获取微课视频方式: 读者可以先扫描本书封底的文泉云盘防盗码,再扫描书中相应的视频二维码,观看教学视频。 (2) 获取源代码、数据集、全书网址和需要彩色展示的图片 方式: 先扫描本书封底的文泉云盘防盗码,再扫描下方二维码,即可获取。 源代码、数据集 全书网址 彩色图片 (3) 其他配套资源可以扫描本书封底的“书圈”二维码,关注后输入书号,即可下载。 读者对象 本书是一本针对爱好数据分析与挖掘、机器学习等相关知识的读者而编写的基础教程,尤其适用于全国高等学校的教师、在读学生及相关领域的爱好者。 本书的编写参考了同类书籍和相关资料,在此向有关作者表示衷心的感谢。 由于编者水平有限,书中难免存在疏漏之处,恳请广大读者予以批评指正。 编者 2022年2月