前言 新型冠状病毒感染(COVID19)疫情是近百年来在世界上传播速度最快、感染范围最广、防控难度最大的突发公共卫生事件。在这次新冠疫情防控中,人工智能、大数据技术大显身手并得到了广泛应用,成为本次疫情防控中的一大亮点。人工智能技术这几年本来就很火,这次的新冠肺炎疫情更是加速了人工智能技术在各应用场景的工程落地速度,同时也掀起了大家学习人工智能技术的狂潮,很多公司对人工智能岗位的人才需求也因此增加,薪资也水涨船高! 自然语言处理(NLP)目前已成为人工智能领域最热门的技术之一,在公司的项目里有着非常广泛的应用场景。目前 NLP人才非常稀缺,招聘需求比较旺盛,薪资相对较高,在人工智能领域是一个非常好的就业方向。《自然语言处理原理与实战》 共19章,分别为自然语言处理技术概述、中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频逆文档频率(TFIDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2Vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型(language model)、分布式深度学习实战、自然语言处理项目实战(对话机器人项目实战、搜索引擎项目实战、推荐算法系统实战)等内容。 本书第1章主要介绍NLP的入门知识以及它在公司实际工作中的岗位技能要求、薪资水平及职业规划。 第2~6章介绍NLP的基础算法。第7章 介绍最热门的字符串编辑距离、余弦相似度。第8章讲解的语义相似度计算是语义热门技术同时也是语义理解的难点。第9章的词频逆文档频率(TFIDF)在NLP中用得很普遍。第10章介绍了条件随机场最好用的工具是CRF++。第11章讲解的新词发现与短语提取是非常重要的NLP课题。第12章 介绍了最流行的搜索引擎Solr Cloud和Elasticsearch。第13章 介绍了Word2Vec词向量模型的Spark分布式实现和谷歌开源工具,Spark平台及更多机器学习算法可参见我 编写的《分布式机器学习实战》。第14章和第15章 介绍了 文本分类和聚类,其中FastText和BERT模型很受欢迎。第16章 讲解 的关键词提取和文本摘要是重点。 第17章自然语言模型的NLP高级应用场景。第18章分布式深度学习实战 用到流行的TensorFlow及Mxnet框架,同时讲解了各种前沿的神经网络算法,同时也是第19章尤其是对话机器人实战项目的基础。第19章自然语言处理项目实战(对话机器人项目实战、搜索引擎项目实战、推荐算法系统实战)侧重公司级实战及工程落地,方便我们系统地巩固知识并快速融入实际工作中。 陈敬雷 2023年10月