前言


在过去的几年中,信息领域取得许多重大的突破性进展,其中包括深度学习、自然语言处理和图数据库等,核心都是对数据进行处理和分析,使得系统更加智能而高效。沧海横流,方显英雄本色。在这个大变局的时代背景下,知识图谱的概念得以迅猛发展,业已成为人工智能和自然语言处理领域的核心驱动力之一,广泛应用于金融、电商、医疗、政务等众多领域。
知识图谱是一种覆盖多维关系和实体的结构化数据模型,用于表示知识和实体之间的关系网络。这种模型有助于更好地理解数据和实体之间的联系,从而进行知识推理和推断,可用于各种搜索算法和自然语言处理应用。它们是连接不同数据源、整合不同领域数据、实现机器推理和推断的很有价值的工具。
知识图谱的最重要特点之一就是可解释性。其精准稳定的推理和发现新知识的能力,正是目前深度学习方法还很难做到的。知识图谱把领域知识或常识整理成结构化的形式,然后在此基础上进行推理,是一种更加结构化和灵活的数据模型,可以更好地对实体和关系进行建模和推理。随着近年来基于大规模语言模型的深度学习算法技术的快速发展和相互融合,知识图谱将从中获得更强的自然语言处理和文本生成能力,从而进入更为广阔的发展空间。
本书面向编程开发人员,主要从实践角度来深入探讨知识图谱的核心概念、建模方法以及在实际场景中的应用。本书从知识图谱的基础知识开始,选取知识图谱的典型领域应用场景,实现知识图谱从数据采集到可视化展示的全过程,对知识图谱的构建、存储、查询和应用等方面进行细致的分析与探讨,并带领大家一步一步地使用相应数据库、开发框架和代码工具,以全面掌握核心技术和实践应用。
其中,第1章概述知识图谱的理论基础和入门知识,汇总实战知识点和章节分布。从第2章开始,分别针对企业信息、医药疾病、银行审计、人物关系、实体链接、科研文献、微博舆情、法规搜索、司法文书、政府信箱、新闻推荐等具体场景展开。每章按照需求分析、工作流程、技术选型、开发准备、数据准备和预处理、知识建模和存储、图谱可视化和知识应用、小结和扩展等结构布局。章节顺序经过精心安排,各知识点的学习由浅入深、由简入繁、循序渐进。本书配有源代码和资源,在每章中均有使用方法和关键代码讲解说明。
本书最初起源于团队自身建设的能力提升所需,我们改编了一批当前热门的应用案例作为实战化操作练习,并准备了全套源代码、数据集和使用说明等学习资源。本书随着团队新生力量的增加而不断更新,多次作为培训教材使用而且反响良好。这次通过向大家分享和展示我们在探索和学习知识图谱方面所取得的成果,希望能够为对知识图谱感兴趣的开发人员带来全面深入的了解和掌握,也期待大家能够将知识图谱技术应用到自己的工作实践当中,在各自的航道上乘风破浪、开拓创新。
本书是跨域大数据智能分析与应用省级重点实验室团队协作努力的成果,由邓劲生和宋省身负责搭建整体框架并确定实战内容、组织验证应用和调度实施,刘娟选取具体案例并统筹撰写。其中,邓劲生(第1章)、熊炜林(第2章和第3章)、宋省身(第4章)、黎珍(第5章、第9章、部分第6章)、刘娟(第7章、第11章、第12章)、王良(第8章)、唐钧中(第10章、部分第6章)等分别主写了相应章节,曹吉浩、阳帆、严少洁、陈怡参与了部分章节撰写、调试代码并整理优化文字,李昊阳、任天翔、刘高杭等进行了核查验证及资源梳理,乔凤才、尹晓晴、赵涛等参与了文稿修改完善指导。部分内容来自于参考文献和网络资源转载,未能逐一溯源和说明引用,特在此对这些资源的作者表示感谢。
由于知识图谱正处于蓬勃发展之中,而作者的自身水平、理解能力、项目经验和表达能力有限,书中难免存在一些错误和不足之处,还望各位读者不吝赐教,也欢迎将本书选作教材的老师垂询和交流,联系邮箱是bljdream@qq.com。

作者2023年12月