目录 第 1章动态规划算法 ...................................................................................................... 1 1.1概述.................................................................................................................... 1 1.2基本问题 ............................................................................................................. 8 1.3算法...................................................................................................................12 1.4状态增广和其他重新建模.....................................................................................24 1.5一些数学问题 .....................................................................................................29 1.6动态规划和极小化极大控制 .................................................................................32 1.7注释、参考文献和习题 ........................................................................................35 第 2章确定性系统和最短路径问题 .................................................................................44 2.1有限状态系统和最短路径.....................................................................................44 2.2一些最短路径的应用 ...........................................................................................47 2.2.1关键路径分析 ...........................................................................................47 2.2.2隐马尔可夫模型和瓦特比算法....................................................................48 2.3最短路径算法 .....................................................................................................53 2.3.1标签纠正方法 ...........................................................................................55 2.3.2标签纠正变形-A*算法 ..............................................................................60 2.3.3分支定界..................................................................................................61 2.3.4约束与多目标问题 ....................................................................................63 2.4注释、参考文献和习题 ........................................................................................67 第 3章确定性连续时间最优控制 ....................................................................................72 3.1连续时间最优控制...............................................................................................72 3.2哈密尔顿-雅可比-贝尔曼方程 ...............................................................................74 3.3庞特里亚金最小值原理 ........................................................................................79 3.3.1使用 HJB方程的非正式推导 .....................................................................79 3.3.2一种基于变分思想的推导 ..........................................................................86 3.3.3离散时间问题的最小值原理 .......................................................................89 3.4最小值原理推广 ..................................................................................................90 3.4.1固定的末端状态........................................................................................91 3.4.2自由初始状态 ...........................................................................................93 3.4.3自由终止时间 ...........................................................................................94 3.4.4时变系统与费用........................................................................................97 动态规划与最优控制——近似动态规划 (第 I卷) 3.4.5奇异问题..................................................................................................97 3.5注释、参考文献和习题 ........................................................................................99 第 4章具有精确状态信息的问题 .................................................................................. 103 4.1线性系统和二次型费用 ...................................................................................... 103 4.2库存控制 .......................................................................................................... 112 4.3动态资本分析 ................................................................................................... 119 4.4最优停止问题 ................................................................................................... 122 4.5调度与交换的理由............................................................................................. 130 4.6不确定性的集合隶属度描述 ............................................................................... 133 4.6.1集合隶属度估计...................................................................................... 133 4.6.2具有未知且有界扰动的控制 ..................................................................... 138 4.7注释、参考文献和习题 ...................................................................................... 140 第 5章不精确状态信息的问题...................................................................................... 152 5.1化简为精确信息的情形 ...................................................................................... 152 5.2线性系统和二次型费用 ...................................................................................... 160 5.3线性系统的最小方差控制................................................................................... 165 5.4充分统计量....................................................................................................... 176 5.4.1条件状态分布 ......................................................................................... 177 5.4.2有限状态系统 ......................................................................................... 180 5.5注释、参考文献和习题 ...................................................................................... 190 第 6章近似动态规划 ................................................................................................... 198 6.1确定性等价和自适应控制................................................................................... 199 6.1.1谨慎、探测和对偶控制............................................................................ 203 6.1.2两阶段控制和识别能力............................................................................ 204 6.1.3确定性等价控制和可辨识性 ..................................................................... 205 6.1.4自调节调节器 ......................................................................................... 209 6.2开环反馈控制 ................................................................................................... 210 6.3有限前瞻策略 ................................................................................................... 213 6.3.1有限前瞻策略的性能界............................................................................ 214 6.3.2有限前瞻中的计算问题............................................................................ 217 6.3.3问题近似——强化分解 ............................................................................ 219 6.3.4集结 ...................................................................................................... 223 6.3.5后续费用的参数化近似............................................................................ 227 6.4滚动算法 .......................................................................................................... 234 6.4.1离散确定性问题...................................................................................... 239 6.4.2由仿真评价的 Q-因子 ............................................................................. 251 目录 IX 6.4.3 Q-因子近似 ............................................................................................ 253 6.5模型预测控制及相关方法................................................................................... 255 6.5.1滚动时段近似 ......................................................................................... 255 6.5.2模型预测控制中的稳定性问题.................................................................. 257 6.5.3结构受限的策略...................................................................................... 262 6.6近似动态规划中的额外主题 ............................................................................... 266 6.6.1离散化 ................................................................................................... 266 6.6.2其他近似方法 ......................................................................................... 268 6.7注释、参考文献和习题 ...................................................................................... 269 第 7章无限阶段问题介绍 ............................................................................................ 280 7.1概览................................................................................................................. 280 7.2随机最短路径问题............................................................................................. 282 7.3折扣问题 .......................................................................................................... 290 7.4每阶段平均费用问题 ......................................................................................... 293 7.5半马尔可夫问题 ................................................................................................ 303 7.6注释、参考文献和习题 ...................................................................................... 310 附录 A数学知识复习 ................................................................................................... 320 A.1集合................................................................................................................ 320 A.2欧氏空间 ......................................................................................................... 321 A.3矩阵................................................................................................................ 321 A.4分析................................................................................................................ 324 A.5凸集和凸函数 .................................................................................................. 325 附录 B优化理论 .......................................................................................................... 327 B.1最优解............................................................................................................. 327 B.2最优性条件 ...................................................................................................... 328 B.3二次型最小化................................................................................................... 329 附录 C概率论 ............................................................................................................. 330 C.1概率空间 ......................................................................................................... 330 C.2随机变量 ......................................................................................................... 330 C.3条件概率 ......................................................................................................... 331 附录 D关于有限状态马尔可夫链................................................................................... 333 D.1平稳马尔可夫链 ............................................................................................... 333 D.2状态分类 ......................................................................................................... 334 D.3极限概率 ......................................................................................................... 334 动态规划与最优控制——近似动态规划 (第 I卷) D.4首达时间 ......................................................................................................... 335 附录 E卡尔曼滤波 ....................................................................................................... 336 E.1最小二乘估计................................................................................................... 336 E.2线性最小二乘估计 ............................................................................................ 337 E.3状态估计——卡尔曼滤波器 ............................................................................... 342 E.4稳定性方面 ...................................................................................................... 346 E.5高斯-马尔可夫估计器........................................................................................ 347 E.6确定性最小二乘估计......................................................................................... 349 附录 F随机线性系统模型 ............................................................................................. 351 F.1具有随机输入的线性系统 .................................................................................. 351 F.2具有有理数谱的过程......................................................................................... 352 F.3 ARMAX模型 .................................................................................................. 353 附录 G不确定性下的决策问题建模 ............................................................................... 354 G.1不确定性下的决策问题 ..................................................................................... 354 G.2期望效用理论和风险 ........................................................................................ 357 G.3随机最优控制问题............................................................................................ 365 参考文献 ........................................................................................................................ 369