前言

党的二十大报告强调“必须坚持科技是第一生产力、人才是第一资源、创新是第一动力，深入实施科教兴国战略、人才强国战略、创新驱动发展战略，开辟发展新领域新赛道，不断塑造发展新动能新优势”。

作为人工智能的核心技术之一，机器学习是获得智能的基本途径，其应用遍及人工智能的各个领域，包括计算机视觉、自然语言处理和图网络分析等。为了迎合新一代人工智能发展规划对该领域人才的需求，本书为人工智能相关专业的学生介绍机器学习基础理论知识、最新发展成果、实际应用以及项目实践等。


本书主要内容

本书可视为一本围绕数据表示学习的机器学习图书，全书共7章。

第1章绪论，包括机器学习简介、特征工程与数据表示学习、数学与概率基础。 第2章传统降维方法，包括主成分分析、流形学习、t分布随机邻域嵌入和自编码器。第3章分布式表示学习和聚类算法，包括Kmeans算法和K近邻算法、原型聚类算法、基于密度的聚类算法以及层次聚类。第4章稀疏表示学习，包括稀疏表示简介和匹配追踪算法等。第5章神经网络中的特征提取，包括多层神经网络、卷积神经网络、循环神经网络、图神经网络等。第6章生成式表示学习，包括贝叶斯学习、近似推断、概率图模型、生成对抗网络和扩散模型等。第7章对比式表示学习，包括数据增强、正负样本的选择、相似性度量、对比框架等。


本书特色

(1) 角度新颖，探索核心。

本书围绕数据表示学习介绍机器学习，解决机器学习及其应用的核心问题，角度较为新颖。人工智能涉及计算机视觉中图像和视频内容的理解、自然语言的理解以及具有拓扑结构的图网络理解等任务。完成此类高阶人工智能任务的核心，是解决如何从各类型的原始数据中智能地提取出重要的模式、特征、嵌入和表示等信息，从而帮助解决下游的具体应用任务。

(2) 夯实基础，紧追前沿。

本书不仅包含传统的机器学习模型和算法，还纳入最新的发展成果。例如，对比学习作为无监督学习技术之一，近年来显示出来强大的表示学习能力，极大地缩小甚至超过了现有的有监督模型的性能，此部分内容被纳入本书中。

(3) 注重理论，联系实际。

本书不仅详细介绍数据表示学习的基础理论和方法，也阐述了它们在计算机视觉、自然语言处理和图网络分析任务中的实际应用。本书介绍了数值、图像、视频、语音、自然语言、图网络等不同类型数据的表示学习方法，并提供可学习和可执行的项目代码。

(4) 详细全面，使用方便。

本书内容详细全面，对于各章节内容由浅入深、详细论述，以便读者在学习过程中更加容易理解各个算法提出的动机、具体的步骤、性能特点、应用领域等。除了通过数学公式描述算法外，也注重图表的可视化展示，以及详尽的文字描述。


配套资源

为便于教与学，本书配有源代码、教学课件、教学大纲、教学日历、教学进度表。

(1) 获取源代码方式： 先刮开并用手机版微信App扫描本书封底的文泉云盘防盗码，授权后再扫描下方二维码，即可获取。



源代码



(2) 其他配套资源可以扫描本书封底的“书圈”二维码，关注后回复本书书号，即可下载。


读者对象

本书主要面向广大从事人工智能、机器学习或深度学习、数据挖掘、模式识别等领域的专业人员、从事高等教育的专任教师、高等学校的在读学生及相关领域的广大科研人员。


在本书的编写过程中，作者参考了诸多相关资料，在此对相关资料的作者表示衷心的感谢。

限于个人水平和时间仓促，书中难免存在疏漏之处，欢迎广大读者批评指正。



作者
2025年1月