目 录 第1章 绪论 1 1.1 人工智能发展 2 1.2 机器学习 4 1.2.1 机器学习概念 4 1.2.2 机器学习方法 4 1.2.3 机器学习分类 5 1.3 模型推理 6 1.3.1 模型分类 6 1.3.2 模型推理概念 7 1.3.3 模型推理方法 8 1.4 应用例子 9 1.5 内容安排 12 习题 13 第一篇 机 器 学 习 第2章 统计决策方法 17 2.1 贝叶斯决策 19 2.1.1 最小错误率贝叶斯决策 19 2.1.2 最小风险贝叶斯决策 21 2.1.3 Neyman-Pearson决策 23 2.1.4 贝叶斯决策规则比较 26 2.1.5 正态分布统计决策 26 2.2 概率密度函数估计 28 2.2.1 参数估计------极大似然法 29 2.2.2 参数估计------最大后验法 31 2.2.3 参数估计------贝叶斯方法 32 2.2.4 概率密度函数估计------贝叶斯学习 35 2.2.5 非参数概率密度函数估计------k近邻法 36 2.2.6 非参数概率密度函数估计------Parzen窗法 37 习题 39 第3章 监督学习方法 42 3.1 最小二乘法 43 3.1.1 线性回归 43 3.1.2 逻辑回归 45 3.1.3 均方误差估计 46 3.2 支持向量机 48 3.2.1 标准支持向量机 48 3.2.2 软间隔与正则化 52 3.2.3 支持向量回归 54 3.3 核方法与正则化 56 3.3.1 广义线性模型 56 3.3.2 核支持向量机 61 3.3.3 正则化理论 61 3.4 神经网络 64 3.4.1 感知器 64 3.4.2 神经网络结构 68 3.4.3 反向传播算法 70 3.5 复合学习方法 73 3.5.1 集成学习 73 3.5.2 多任务学习 79 3.5.3 迁移学习 80 3.5.4 终身学习 81 3.5.5 元学习 82 习题 83 第4章 无监督学习方法 86 4.1 近邻测度和聚类准则 88 4.2 聚类方法 92 4.2.1 层次聚类算法 92 4.2.2 最优化方法聚类算法 94 4.2.3 图谱聚类算法 99 4.3 特征降维 101 4.3.1 特征选择 102 4.3.2 特征提取 106 4.4 无监督概率模型估计 116 4.4.1 期望最大化算法 117 4.4.2 混合高斯分布估计方法 120 4.4.3 因子分析方法 122 4.4.4 概率矩阵分解方法 124 习题 126 第5章 深度学习方法 128 5.1 深度网络概述 129 5.1.1 深度网络定义和种类 129 5.1.2 深度网络特点 132 5.2 深度卷积神经网络 132 5.2.1 卷积神经网络 134 5.2.2 参数学习 135 5.2.3 常见卷积神经网络 136 5.3 循环神经网络 137 5.3.1 循环网络 137 5.3.2 记忆网络和注意力机制 142 5.4 图神经网络 146 5.4.1 图神经网络基本框架 146 5.4.2 图滤波器 147 5.4.3 图池化 150 5.4.4 图神经网络学习 151 5.5 深度信念网络 153 5.5.1 玻耳兹曼机 153 5.5.2 受限玻耳兹曼机 156 5.5.3 深度信念网络 158 5.6 深度生成网络 159 5.6.1 变分自编码器 159 5.6.2 生成对抗网络 163 习题 167 第6章 近似推理方法 170 6.1 确定性近似推理 171 6.1.1 拉普拉斯近似 171 6.1.2 KL变分近似 172 6.2 采样近似推理 176 6.2.1 采样推理 176 6.2.2 马尔可夫链蒙特卡罗法 177 6.2.3 重要性采样 181 习题 183 第二篇 模 型 推 理 第7章 静态统计模型 189 7.1 线性回归模型 190 7.1.1 最优线性无偏估计 192 7.1.2 参数估计的概率分布 192 7.1.3 参数估计的置信区间 193 7.1.4 回归变量的选择------F检验法 194 7.1.5 回归变量的选择------AIC检验法 195 7.1.6 回归变量的选择------BIC检验法 196 7.2 贝叶斯线性模型 198 7.2.1 贝叶斯拟合 198 7.2.2 贝叶斯分类 201 7.2.3 贝叶斯正则化 203 7.3 隐线性模型 204 7.3.1 因子分析模型 204 7.3.2 概率主成分分析 205 7.3.3 典型相关分析 206 7.4 潜在语义模型 207 7.4.1 确定性潜在语义模型 207 7.4.2 概率潜在语义模型 209 习题 211 第8章 概率图模型 213 8.1 图模型 214 8.1.1 有向图模型 215 8.1.2 无向图模型 217 8.1.3 有向图和无向图之间的转换 219 8.2 图模型学习 220 8.2.1 不含隐变量的参数估计 220 8.2.2 含隐变量的参数估计 221 8.2.3 贝叶斯网络学习 222 8.3 图模型推理 222 8.3.1 精确推理 223 8.3.2 联合树算法 230 8.3.3 网格模型 237 习题 239 第9章 马尔可夫模型 241 9.1 离散状态马尔可夫模型 242 9.1.1 马尔可夫模型 242 9.1.2 隐马尔可夫模型 243 9.1.3 观测序列概率计算 244 9.1.4 状态序列估计 246 9.1.5 模型参数估计 250 9.2 连续状态马尔可夫模型 251 9.2.1 自回归模型 251 9.2.2 状态空间模型 252 9.2.3 线性高斯状态空间模型 254 9.2.4 非线性高斯状态空间模型 257 9.2.5 动态系统参数辨识 261 习题 264 第10章 马尔可夫决策过程 267 10.1 马尔可夫决策 269 10.1.1 策略迭代学习 271 10.1.2 值迭代学习 271 10.2 强化学习 272 10.2.1 无模型的值函数学习方法 272 10.2.2 无模型的策略函数学习方法 276 10.3 逆强化学习 280 10.3.1 基于最大边际的逆强化学习 280 10.3.2 基于最大熵的逆强化学习 282 习题 283 附录A 概率理论 286 A.1 随机变量与概率分布 287 A.2 随机向量与概率分布 287 A.3 共轭先验分布 288 A.3.1 二项分布与Beta分布 288 A.3.2 多项分布与Dirichlet分布 289 A.3.3 高斯分布与Gamma分布 290 A.4 多维高斯分布 291 A.5 信息和熵 292 附录B 矩阵理论 295 B.1 常用矩阵函数 296 B.2 特征值和特征向量 296 B.3 向量和矩阵范数 297 B.4 矩阵微积分 298 B.5 矩阵奇异值分解 299 附录C 优化理论 300 C.1 无约束优化 301 C.2 等式约束优化 301 C.3 不等式约束优化 302 C.4 优化算法 303 C.4.1 牛顿法 303 C.4.2 梯度下降法 305 C.4.3 加速梯度下降法 306 C.4.4 非光滑优化问题求解 308 C.4.5 带约束优化 309 参考文献 312