目录 第1篇数据管理篇 第1章关系数据库查询优化3 1.1关系数据库查询优化概述3 1.2基数估计4 1.2.1基数估计概述4 1.2.2传统基数估计5 1.2.3基于机器学习的基数估计12 1.3思考题22 第2章信息检索24 2.1信息检索概述24 2.1.1信息检索的概念24 2.1.2信息检索的基本原理25 2.1.3信息检索相关学科和研究内容26 2.2信息检索模型28 2.2.1信息检索系统的形式表示28 2.2.2布尔模型29 2.2.3向量空间模型29 2.3文本信息检索33 2.3.1词汇的频率与数量分布规律33 2.3.2文本信息预处理34 2.3.3文本信息的倒排索引35 2.4Web信息检索39 2.4.1Web信息搜索的概念和工作原理39 2.4.2搜索引擎中的网页去重技术41 2.4.3搜索引擎中的结果排序技术43 2.5信息检索评价指标49 2.5.1单个查询的评价指标49 2.5.2多个查询的评价指标51 2.5.3面向用户的评价指标52 2.6思考题53 第3章数据组织和架构55 3.1数据组织概述55 3.2数据仓库56 3.2.1数据仓库的基本特征56 3.2.2从操作型系统到信息型系统57 3.2.3数据仓库体系结构57 3.3数据湖63 3.3.1数据湖概述63 3.3.2数据湖与数据中台64 3.3.3数据湖体系结构65 3.3.4Apache Hudi简介68 3.4向量数据库71 3.4.1向量数据库概述71 3.4.2向量数据库的索引技术72 3.4.3向量数据库的搜索技术74 3.4.4向量数据库产品介绍75 3.5思考题77 第2篇数据挖掘和智能分析篇 第4章高维数据挖掘81 4.1高维数据挖掘概述81 4.2数据降维82 4.2.1自编码器82 4.2.2变分自编码器85 4.3数据分类88 4.3.1朴素贝叶斯分类88 4.3.2支持向量机91 4.4数据聚类95 4.4.1k均值聚类95 4.4.2CLIQUE聚类97 4.4.3谱聚类101 4.5思考题104 第5章视觉数据分析106 5.1视觉数据分析概述106 5.2目标检测107 5.2.1目标检测概述107 5.2.2卷积神经网络108 5.2.3YOLO算法110 5.3图像分割113 5.3.1图像分割概述113 5.3.2Mask RCNN算法114 5.4视频目标跟踪119 5.4.1视频目标跟踪概述119 5.4.2Siamese FC算法120 5.5思考题123 第6章文本数据分析125 6.1文本数据分析概述125 6.2语言模型126 6.2.1语言模型概述126 6.2.2传统语言模型126 6.2.3BERT预训练语言模型127 6.3情感分析131 6.3.1情感分析概述131 6.3.2基于情感词典的情感分析132 6.3.3基于BERT的情感分析133 6.4机器翻译135 6.4.1机器翻译概述135 6.4.2基于LSTM的神经机器翻译136 6.4.3基于BERT的机器翻译模型140 6.5思考题144 第7章图数据分析146 7.1图数据分析概述146 7.2图神经网络147 7.3节点分类149 7.3.1节点分类概述149 7.3.2基于GCN的节点分类150 7.4链接预测154 7.4.1链接预测概述154 7.4.2基于GCN的链接预测154 7.5社区发现158 7.5.1社区发现概述158 7.5.2基于GCN的社区发现159 7.6评价指标162 7.7思考题164 第3篇知识表示和知识推理篇 第8章知识图谱169 8.1知识图谱概述169 8.2知识图谱构建170 8.2.1命名实体识别171 8.2.2关系抽取174 8.2.3实体关系联合抽取177 8.3知识图谱嵌入179 8.3.1距离模型179 8.3.2双线性模型182 8.4知识图谱推理183 8.4.1基于规则的推理184 8.4.2基于神经网络的推理186 8.5思考题191 第9章贝叶斯网192 9.1贝叶斯网概述192 9.2贝叶斯网构建193 9.2.1基本概念193 9.2.2学习算法193 9.3基于贝叶斯网的概率推理198 9.3.1精确推理算法198 9.3.2近似推理算法200 9.4思考题202 参考文献204