前言 随着数据处理、互联网和人工智能技术的快速发展和迅速普及,当代计算机学科发生了深刻变化,即“以计算为中心”转变到“以数据为中心”。随着新一轮科技革命和产业变革深入推进,智能数据处理及分析技术在科学研究、工业生产、社会治理等领域中发挥着不可替代的作用,成为发展人工智能新质生产力的重要技术基础。同时,日益迫切的数据密集型科学研究、各行各业的数字化转型需求,也促进了数据库、数据科学、人工智能等围绕数据和知识两个要素快速发展、持续演进和交叉融合。 针对智能数据处理及分析任务的模型构建、算法设计、分析比较、编程实现能力,是计算机和电子信息类相关专业研究生及高年级本科生必备的重要能力,反映了学生解决复杂工程问题、建立有效解决方案、应用信息技术对实际问题进行建模和求解的必要素养。相关学科领域交叉渗透加剧,培育学生数据思维、算法思维、编程思维的要求日益提高,智能数据工程的内涵不断演进、外延日益丰富,相关课程具有较强的工程性,教学方式也逐步从“由原理到技术”向“原理与技术相协同”转变,对课程的教学内容和教学模式提出了新的要求。 培养学生解决复杂工程问题能力的迫切需求与智能数据工程相关课程的内容设置和教学模式之间,仍存在不同学习阶段知识点重复或不衔接,数据管理与组织、数据挖掘与分析、知识发现与推理的教学内容缺乏系统性,经典方法与前沿技术、理论模型与编程实践结合不紧密等问题。一方面,智能数据工程知识的学习,需要面向实际需求,从不同组织形式或不同模态数据的特点出发,掌握经典的模型和算法,把握其基本理念和求解问题的一般思路;另一方面,不同层次的读者,对智能数据工程知识的学习需求也有很大差异,并不存在通用的学习模式、面面俱到的学习内容、一成不变的学习方法,而模型理念、算法思想、技术步骤、实施路径,则是希望通过学习获得的精髓。 基于上述背景和目标,我们对前期出版的《数据工程》进行了大量更新和替换,构建了一系列支持“线下+线上”教学的资源,完成了包括新内容、体现新理念的教材《智能数据工程》,既考虑了智能数据工程技术在经典和前沿两个方面内容的互补性,也考虑了在数据管理、数据挖掘和知识发现三个方面内容的完整性,介绍每部分内容的代表性技术。在每个知识点的阐述中,聚焦智能数据处理及分析任务,注重思路和技术框架的介绍、技术内涵和理念的传递。 本书以“数据管理数据挖掘知识发现”为主线,将智能数据处理及分析的理论方法与Python程序实现相结合,旨在构建智能数据工程“思想模型技术实现”四位一体的知识学习框架,达到举一反三、触类旁通的效果,培养学生的数据思维、算法思维和编程思维。本书针对智能数据处理及分析的各类任务,给出问题背景、模型思想、核心算法,注重数据与知识工程理念的传递,而不陷入技术的细节。 本书由数据管理篇、数据挖掘和智能分析篇、知识表示和知识推理篇三部分构成。 数据管理篇包括以下内容: 第1章以基数估计为代表介绍关系数据库查询优化技术,第2章介绍经典信息检索模型和Web信息检索技术,第3章介绍数据仓库、数据湖和向量数据库这三种数据组织方式及相关技术。 数据挖掘和智能分析篇包括以下内容: 第4章介绍高维数据的降维、分类和聚类挖掘技术,第5章围绕目标检测、图像分割和视频目标跟踪介绍视觉数据分析技术,第6章围绕语言模型、情感分析和机器翻译介绍文本数据分析技术,第7章围绕节点分类、链接预测和社区发现介绍图数据分析技术。 知识表示和知识推理篇包括以下内容: 第8章介绍知识图谱构建、嵌入和推理技术,第9章介绍贝叶斯网构建和推理技术。 此外,作者开发了基于Git的在线编程平台和案例库(https://intelligentdataengineering.github.io/),给出便于教师和学生使用的Python语言编写的在线案例(包括示例程序和自测练习),可供本书的读者免费使用,以作为本书内容的有益补充。本书提供用于教材内容展示的知识图谱,以及基于大模型的教材内容导航、知识总结和关联答疑系统,同时不断完善在线案例,希望能为使用本书的读者提供日益丰富的“赠品”。 在本书的策划和编写过程中,华东师范大学周傲英教授和钱卫宁教授、云南大学刘惟一教授提出了许多宝贵的意见和建议。清华大学出版社责任编辑张玥老师对本书的编辑出版工作给予了大力指导和支持,付出了辛勤的劳动。云南大学信息学院、云南省智能系统与计算重点实验室为本书的编写提供了良好的计算设备和工作环境,云南大学数据与知识工程课题组王笳辉老师、杨培忠老师、方岩老师和10余名研究生给予了很多有益的帮助。在此,谨向每一位关心和支持本书编写工作的人员表示衷心的感谢。 由于作者的知识和水平有限,对模型及算法的理解和观点不够全面,错误和疏漏之处在所难免,恳请各位专家和读者批评指正,以使本书不断改进。 作者 2025年1月