前言 古籍文本信息抽取与挖掘的重要性在于保护和传承人类的文化遗产,以及促进学术研究和历史探索。古籍文本是记录了古代知识、思想、文化和历史的宝贵资源。通过对古籍文本进行信息抽取,可以从大量的文字资料中提取出有用的信息,为人们的研究和了解相关题材提供重要的线索和指引。 本书全面介绍文本信息抽取与知识挖掘的基本概念、原理和方法,包括文本预处理、特征提取、命名实体识别(NER)、信息抽取、语义分析、知识表示等关键技术。读者可了解每种实施方法及其执行流程。 本书中提供一系列实用的方法和工具,指导读者在实际应用中进行文本信息抽取和知识挖掘。这些方法和工具包括基于规则的抽取、统计方法、机器学习和深度学习技术等。读者可以通过实例和案例学习如何选择适当的方法和工具,并将其应用于自己的项目实践中。 本书以文本信息抽取的基础知识为基点,通过理论与实践相结合,重点介绍实体抽取与关系抽取(RE)的技术方法,及其在“中国少数民族古籍总目提要”数据集上的实际应用; 针对NER,介绍基于Transformer模型的方法和基于提示学习的方法; 针对RE,介绍基于远程监督的方法和基于迁移学习的方法; 针对事件抽取(EE),介绍联合模型的EE和篇章级的EE。 全书共9章。第1章为绪论,介绍古籍文本信息抽取的研究背景与意义,以及信息抽取的相关定义和基本方法。第2章详细介绍信息抽取的概念和基础理论,并浅析古籍文本信息抽取的应用领域。第3、4章介绍NER的核心方法,分别是基于Transformer模型的方法和基于提示学习的方法。第5、6章介绍实体RE的核心方法,分别是基于远程监督的方法和基于迁移学习的方法。第7、8章介绍EE的核心方法,分别是联合模型的EE和篇章级的EE方法。在第3~8章中,每一个方法都提供了相应的实验及对实验结果的分析。第9章为总结与展望,主要内容是对当前在实体RE领域相关技术的总结及对于此领域内技术未来发展方向的展望。 本书可以作为计算机、软件工程及相关专业学生“实体抽取”“文本信息抽取”“信息挖掘”等课程的参考书,同时也可作为计算机从业人员实体RE、EE、文本信息挖掘相关知识的入门学习资料。读者最好在学习过“人工智能”“机器学习”“深度学习”等相关课程后再学习本书及自然语言处理的相应课程。 本书在编写过程中得到中央民族大学信息工程学院的研究生穆日亘、毛宁静、丁福森、李蕊、王文涵、张小苗、仪超、金明哲的大力支持,在此表示衷心的感谢。同时,还需感谢本书后参考文献的作者,感谢他们的资料对本书的指导。感谢清华大学出版社编辑们对本书的出版给予的宝贵建议。 在本书的撰写和相关技术的研究中,由于编者受知识水平所限及时间仓促,书中错误与疏漏之处在所难免,敬请广大读者批评指正。 卢勇 2024年8月