目录



第1章自然语言处理技术概述

1.1自然语言处理介绍

1.1.1自然语言处理的定义及其在实际工作中的定位

1.1.2自然语言处理的经典应用场景

1.2自然语言处理的技能要求和职业发展路径

1.2.1大数据部门组织架构和自然语言处理职位所处位置

1.2.2自然语言处理的职位介绍和技能要求

1.2.3自然语言处理的职业生涯规划和发展路径

1.2.4自然语言处理的市场平均薪资水平

第2章中文分词

2.1中文分词原理

2.2规则分词

2.2.1正向最大匹配法

2.2.2逆向最大匹配法

2.2.3双向最大匹配法

2.3机器学习统计分词

2.3.1隐马尔可夫模型分词

2.3.2感知器分词

2.3.3CRF分词

2.4分词工具实战

2.4.1CRF++工具包实战

2.4.2Python的Jieba分词

2.4.3Java的HanLP分词

2.4.4Java的IK分词

2.4.5Java的mmseg4j分词

第3章词性标注

3.1词性标注原理

3.1.1词性介绍

3.1.2HMM词性标注

3.1.3感知器词性标注

3.1.4CRF词性标注

3.2词性标注工具实战

3.2.1Python的Jieba词性标注

3.2.2Java的HanLP词性标注


第4章命名实体识别

4.1命名实体识别原理

4.2基于HMM角色标注的命名实体识别

4.2.1中国人名识别

4.2.2地名识别

4.2.3机构公司名识别

4.3基于线性模型的命名实体识别

4.3.1感知器命名实体识别

4.3.2CRF命名实体识别

第5章依存句法分析

5.1依存句法分析原理

5.2HanLP基于神经网络依存句法分析器

第6章语义角色标注

6.1语义角色标注原理

6.2语义角色标注的设计框架

6.2.1生成语义生成树

6.2.2剪枝

6.2.3角色识别

6.2.4角色分类

第7章文本相似度算法

7.1字符串编辑距离

7.1.1算法原理

7.1.2Java代码实现

7.1.3Python代码实现

7.2余弦相似度

7.2.1算法原理

7.2.2Java代码实现

7.2.3Python代码实现

第8章语义相似度计算

8.1《同义词词林》

8.1.1算法原理

8.1.2代码实战

8.2基于深度学习的语义相似度

8.2.1DSSM

8.2.2CNNDSSM

8.2.3LSTMDSSM

第9章词频逆文档频率

9.1TFIDF算法原理

9.2Java代码实现TFIDF

9.3TFIDF的Python代码实现

第10章条件随机场

10.1算法原理

10.2开源工具实战

第11章新词发现与短语提取

11.1新词发现

11.2短语提取

第12章搜索引擎Solr Cloud和Elasticsearch

12.1全文搜索引擎介绍及原理

12.2Lucene搜索引擎

12.3Solr Cloud

12.3.1Solr Cloud介绍及原理

12.3.2Solr Cloud实战

12.4Elasticsearch

12.4.1Elasticsearch介绍及原理

12.4.2Elasticsearch实战

第13章Word2Vec词向量模型

13.1Word2Vec词向量模型介绍及原理

13.2Word2Vec词向量模型实战

13.2.1Spark分布式实现Word2Vec词向量模型

13.2.2谷歌开源Word2Vec工具

第14章文本分类

14.1文本分类介绍及相关算法

14.2朴素贝叶斯算法

14.2.1算法原理

14.2.2源码实战

14.3支持向量机

14.3.1算法原理

14.3.2源码实战

14.4Python开源快速文本分类器FastText

14.4.1FastText框架核心原理

14.4.2FastText和Word2Vec的区别

14.4.3FastText实战

14.5BERT文本分类

14.5.1BERT模型介绍及原理

14.5.2BERT中文文本分类实战

第15章文本聚类

15.1文本聚类介绍及相关算法

15.2Kmeans文本聚类

15.2.1算法原理

15.2.2源码实战

15.3LDA主题词——潜在狄利克雷分布模型

15.3.1算法原理

15.3.2源码实战

第16章关键词提取和文本摘要

16.1关键词提取

16.1.1关键词提取介绍及相关算法

16.1.2基于Python的关键词提取实战

16.1.3基于Java的关键词提取实战

16.2文本摘要

16.2.1文本摘要介绍及相关算法

16.2.2基于Python的文本摘要实战

16.2.3基于Java的文本摘要实战

第17章自然语言模型

17.1自然语言模型原理与介绍

17.2NGram统计语言模型

17.3LSTM神经网络语言模型

第18章分布式深度学习实战

18.1TensorFlow深度学习框架

18.1.1TensorFlow原理和介绍

18.1.2TensorFlow安装部署

18.2MXNet深度学习框架

18.2.1MXNet原理和介绍

18.2.2MXNet安装部署

18.3神经网络算法

18.3.1多层感知器算法

18.3.2卷积神经网络

18.3.3循环神经网络

18.3.4长短期记忆神经网络

18.3.5端到端神经网络

18.3.6生成对抗网络

18.3.7深度强化学习

18.3.8TensorFlow分布式训练实战

18.3.9分布式TensorFlow on Kubernetes集群实战

第19章自然语言处理项目实战

19.1对话机器人项目实战

19.1.1对话机器人原理与介绍

19.1.2基于TensorFlow的对话机器人

19.1.3基于MXNet的对话机器人

19.1.4基于深度强化学习的机器人

19.1.5基于搜索引擎的对话机器人


19.1.6对话机器人的Web服务工程化

19.2搜索引擎项目实战

19.2.1搜索引擎系统架构设计

19.2.2搜索框架技术选型

19.2.3搜索相关度排序

19.2.4搜索综合排序算法

19.2.5搜索内容意图识别和智能纠错

19.2.6搜索智能联想词

19.2.7搜索输入框默认关键词猜你喜欢

19.2.8相关搜索关键词推荐

19.2.9排序学习与NDCG搜索评价指标

19.2.10个性化搜索猜你喜欢

19.2.11搜索此关键词的用户最终购买算法

19.2.12搜索大数据平台及数据仓库建设

19.3推荐算法系统实战

19.3.1推荐系统架构设计

19.3.2推荐数据仓库集市

19.3.3ETL数据处理

19.3.4协同过滤用户行为挖掘

19.3.5ContentBase文本挖掘算法

19.3.6用户画像兴趣标签提取算法

19.3.7基于用户心理学的模型推荐

19.3.8多策略融合算法

19.3.9准实时在线学习推荐引擎

19.3.10Redis缓存处理

19.3.11分布式搜索

19.3.12推荐二次排序算法

19.3.13在线Web实时推荐引擎服务

19.3.14在线AB测试推荐效果评估

19.3.15离线AB测试推荐效果评估

19.3.16推荐位管理平台

参考资料