前言








随着人工智能的快速发展与不断进步,自然语言处理已经成为计算机科学中最具前景和活力的领域之一。在本书中,我们将为大家介绍涵盖了从基本的文本处理,到高级的机器阅读理解、聊天机器人等多个研究领域的多种算法实践。

本书的编写遵循了实践导向原则,旨在让读者通过通用实践,具备NLP建模、解决实际场景问题的能力。本书使用百度开源的PaddlePaddle深度学习框架(飞桨),这是我国首个开源深度学习框架,有着完备、活跃的用户社区,能够帮助读者更好地理解NLP技术的应用和实现。

第1章介绍文本表示的基础知识,文本表示是自然语言处理中最基本的问题之一,它涉及将文本转换为计算机能够理解的形式,如onehot、TFIDF、词向量及基于预训练的表示等。

第2章讲解文本分类实践,将文本数据划分为不同的预定义类别,如情感分类、新闻分类、垃圾邮件过滤等,其目的是通过训练模型自动对新的文本进行分类。

第3章讲解文本匹配实践,对两个文本进行比较,如问答匹配、语义匹配、文本摘要等,其目的是通过计算相似度得出文本的相关性和相似程度。

第4章讲解信息抽取实践,从结构化和非结构化的文本中自动抽取特定类型的信息,如命名实体识别、关系抽取、事件抽取等,其目的是将非结构化的文本转化为结构化的数据,方便后续的分析和挖掘。

第5章讲解机器翻译实践,将一种语言的文本翻译成另一种语言的文本,如英译中、中译英等,其目的是实现不同语言之间的信息交流和文化交流。

第6章讲解自动文摘实践,自动地从一个文本中提取出最重要的信息,并生成一个简洁的摘要,如新闻摘要、论文摘要等,其目的是帮助用户快速获取文本的核心内容,提高信息利用效率。

第7章讲解机器阅读理解实践,通过对一段文本进行理解和推理,回答与文本相关的问题,如阅读理解、问答系统等,其目的是实现机器对自然语言文本的深层次理解,提高机器的智能水平。

第8章讲解聊天机器人实践,利用自然语言处理技术和对话系统技术,实现机器与人之间的自然对话,如智能客服、语音助手、智能问答等,其目的是帮助人们解决实际问题,并提供个性化的服务体验。

我们希望通过这本书,能够使读者获得实际的NLP编程经验,从代码实现层面加深对NLP原理的理解,并将这些经验应用于实际问题的解决。感谢PaddlePaddle社区,免费的GPU算力、完善的API文档以及丰富的产研实践为广大读者提供了极其便利的开发实践环境。最后,我们衷心地希望本书能够对广大读者和自然语言处理领域的研究者有所帮助,并对未来NLP的发展和创新做出贡献。

扫码即可下载本书的源代码及数据: 







编者2023年8月