前言 党的二十大报告指出: 教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑。必须坚持科技是第一生产力、人才是第一资源、创新是第一动力,深入实施科教兴国战略、人才强国战略、创新驱动发展战略,这三大战略共同服务于创新型国家的建设。高等教育与经济社会发展紧密相连,对促进就业创业、助力经济社会发展、增进人民福祉具有重要意义。 经过近几年关于机器学习、人工智能、大数据处理等方面的学习和教学实践,作者愈发认识到这些内容对计算机专业学生及机器学习相关研究人员是至关重要的,甚至对一些非计算机专业的学生也是必须要掌握的技术。实际上,作者早在几年前就打算写一本关于机器学习方面的教材,但由于种种原因最终没有实现。经过多年的教学实践,每每遇到不惑,翻看周志华老师的《机器学习》和李航老师的《统计学习方法》时,总会从中得到新的收获,知识面涉及之广、理论基础之深、语言描述之妙,实在令我佩服。《机器学习》被称为研究生学习机器学习的入门教材,然而初读此书的读者或许会有无从下手、理解不透的情况,这是由于没有通过具体的实例将涉及的算法进行实践和验证,因此体会不深。这种情况对于初学者更甚,特别是在没有教师指导的情况下,或许会对机器学习的理解造成一些障碍。 作者写作本书的目的就是希望读者既能掌握理论知识,也能结合具体实例通过Python语言实现相关算法,从而加深对机器学习理论知识的掌握和理解。建议在学习机器学习时,将周志华老师的《机器学习》和李航老师的《统计学习方法》与本书相结合。 本书比较系统地介绍了机器学习常见的经典算法,从算法的数学原理、算法实现、案例应用3个层面进行由浅入深的讲解。本书以润物细无声的方式融入思政元素,将价值塑造、知识传授和能力培养相结合,充分体现育人理念。本书理论与技术并重,结合作者个人学习、工作中的实践经验,参考众多著作、案例,试图从原理上让读者清楚各个算法的由来并利用算法解决实际生活中有关数据处理的问题,如西瓜分类、垃圾邮件分类、手写数字识别、个性化推荐等。通过这些典型的案例,读者不仅能学会机器学习算法的应用,还能掌握将需要处理的问题转换为机器学习中的分类、回归问题并加以解决的思维方法。 全书案例都配有整体思路讲解,并给出完整的Python实现。所有代码均上机调试通过,并给出程序的运行结果,以方便读者理解并提高综合解决实际问题的能力。 本书共16章,具体内容如下。 第1章——机器学习概述。主要面向机器学习初学者,讲解机器学习的概念、发展历史、基本概念和工作流程等。 第2章——机器学习基础及Python常用库。主要介绍Python语言基础、序列、函数与类、NumPy、Pandas、数据可视化、常用机器学习库及张量、梯度下降、评估方法和数据集等基础知识。 第3章——朴素贝叶斯分类器。首先讲解朴素贝叶斯定理,然后以西瓜数据集为例进行朴素贝叶斯分类实践。 第4章——k近邻算法与非参数估计。首先讲解最小近邻算法原理和非参数估计方法,然后通过案例介绍三文鱼和鲈鱼的分类。 第5章——聚类。主要介绍Kmeans算法、密度聚类、层次聚类算法、EM算法、高斯混合聚类及算法实现等。 第6章——回归分析。首先介绍回归的概念,然后分别介绍单变量回归、多变量回归和多项式回归算法、sigmoid函数、逻辑回归推导过程、梯度下降、参数向量化等。 第7章——决策树。首先介绍决策树算法原理,然后以相亲为例构造决策树,并对其进行分类。 第8章——支持向量机。首先介绍感知机模型,然后讲解支持向量机的工作原理、支持向量机的线性分类和非线性分类、支持向量机回归,最后介绍鸢尾花分类。 第9章——降维分析。主要介绍PCA算法的算法思想、推导过程和算法实现,以及SVD算法的定义、性质和算法实现等。 第10章——人工神经网络。首先介绍BP神经网络原理,然后以具体案例介绍BP神经网络训练过程中参数的学习,最后对鸢尾花数据进行分类。 第11章——深度学习入门。首先介绍深度学习概述,然后介绍卷积神经网络的模型结构、卷积和池化等运算,最后介绍常见的循环神经网络并利用CNN和LSTM实现手写数字识别。 第12章——推荐算法。主要介绍推荐系统的分类、协同过滤推荐算法、推荐系统评估方法、隐语义推荐算法等。 第13章——综合案例分析: 基于协同过滤的推荐系统。基于Movielens 1M数据集,详细介绍数据分析与探索、计算项目相似性、预测评分和推荐等过程,并简要介绍基于深度学习的推荐系统。 第14章——综合案例分析: 零售商品销售额分析与预测。以零售商品销售额分析与预测为例,讲解属性特征数值化、缺失值处理、特征选择等,使用线性回归、岭回归、Lasso回归、多项式回归等对商品销售额进行预测。 第15章——综合案例分析: 手写数字识别。首先介绍图像的存储表示、图像预处理,然后分别使用KNN算法和BP神经网络对手写数字进行识别。 第16章——综合案例分析: 基于深度学习的中文邮件分类。首先介绍中文分词、去除停用词、文本向量化等文本预处理和特征提取算法,然后使用贝叶斯算法、SVM算法、CNN和LSTM等对中文邮件进行分类。 为便于教学,本书提供丰富的配套资源,包括教学大纲、教学课件、程序源码、习题答案、在线作业和微课视频。 资源下载提示 数据文件: 扫描目录上方的二维码下载。 在线作业: 扫描封底的作业系统二维码,登录网站在线做题及查看答案。 微课视频: 扫描封底的文泉云盘防盗码,再扫描书中相应章节的视频讲解二维码,可以在线学习。 本书为中国轻工业“十四五”规划教材,陈锐、陈明、孙海燕、张世征、赵晓君、李昊参与编写。在本书的编写过程中,得到了郑州轻工业大学、铜陵学院和清华大学出版社的大力支持,在此表示衷心感谢。此外,在编写时参阅了大量相关论文、教材和著作,个别案例也参考了网络资源,在此向各位原著者致敬! 由于自身水平有限,加上时间仓促,书中难免存在一些不足之处,恳请读者批评指正。 编者2024年6月