目录

第 1章动态规划算法 ...................................................................................................... 1 

1.1概述.................................................................................................................... 1 

1.2基本问题 ............................................................................................................. 8 

1.3算法...................................................................................................................12 

1.4状态增广和其他重新建模.....................................................................................24 

1.5一些数学问题 .....................................................................................................29 

1.6动态规划和极小化极大控制 .................................................................................32 

1.7注释、参考文献和习题 ........................................................................................35

第 2章确定性系统和最短路径问题 .................................................................................44 

2.1有限状态系统和最短路径.....................................................................................44 

2.2一些最短路径的应用 ...........................................................................................47 

2.2.1关键路径分析 ...........................................................................................47 

2.2.2隐马尔可夫模型和瓦特比算法....................................................................48 

2.3最短路径算法 .....................................................................................................53 

2.3.1标签纠正方法 ...........................................................................................55 

2.3.2标签纠正变形-A＊算法 ..............................................................................60 

2.3.3分支定界..................................................................................................61 

2.3.4约束与多目标问题 ....................................................................................63 

2.4注释、参考文献和习题 ........................................................................................67

第 3章确定性连续时间最优控制 ....................................................................................72 

3.1连续时间最优控制...............................................................................................72 

3.2哈密尔顿-雅可比-贝尔曼方程 ...............................................................................74 

3.3庞特里亚金最小值原理 ........................................................................................79 

3.3.1使用 HJB方程的非正式推导 .....................................................................79 

3.3.2一种基于变分思想的推导 ..........................................................................86 

3.3.3离散时间问题的最小值原理 .......................................................................89 

3.4最小值原理推广 ..................................................................................................90 

3.4.1固定的末端状态........................................................................................91 

3.4.2自由初始状态 ...........................................................................................93 

3.4.3自由终止时间 ...........................................................................................94 

3.4.4时变系统与费用........................................................................................97 

动态规划与最优控制——近似动态规划 (第 I卷) 
3.4.5奇异问题..................................................................................................97 

3.5注释、参考文献和习题 ........................................................................................99

第 4章具有精确状态信息的问题 .................................................................................. 103 

4.1线性系统和二次型费用 ...................................................................................... 103 

4.2库存控制 .......................................................................................................... 112 

4.3动态资本分析 ................................................................................................... 119 

4.4最优停止问题 ................................................................................................... 122 

4.5调度与交换的理由............................................................................................. 130 

4.6不确定性的集合隶属度描述 ............................................................................... 133 

4.6.1集合隶属度估计...................................................................................... 133 

4.6.2具有未知且有界扰动的控制 ..................................................................... 138 

4.7注释、参考文献和习题 ...................................................................................... 140

第 5章不精确状态信息的问题...................................................................................... 152 

5.1化简为精确信息的情形 ...................................................................................... 152 

5.2线性系统和二次型费用 ...................................................................................... 160 

5.3线性系统的最小方差控制................................................................................... 165 

5.4充分统计量....................................................................................................... 176 

5.4.1条件状态分布 ......................................................................................... 177 

5.4.2有限状态系统 ......................................................................................... 180 

5.5注释、参考文献和习题 ...................................................................................... 190

第 6章近似动态规划 ................................................................................................... 198 

6.1确定性等价和自适应控制................................................................................... 199 

6.1.1谨慎、探测和对偶控制............................................................................ 203 

6.1.2两阶段控制和识别能力............................................................................ 204 

6.1.3确定性等价控制和可辨识性 ..................................................................... 205 

6.1.4自调节调节器 ......................................................................................... 209 

6.2开环反馈控制 ................................................................................................... 210 

6.3有限前瞻策略 ................................................................................................... 213 

6.3.1有限前瞻策略的性能界............................................................................ 214 

6.3.2有限前瞻中的计算问题............................................................................ 217 

6.3.3问题近似——强化分解 ............................................................................ 219 

6.3.4集结 ...................................................................................................... 223 

6.3.5后续费用的参数化近似............................................................................ 227 

6.4滚动算法 .......................................................................................................... 234 

6.4.1离散确定性问题...................................................................................... 239 

6.4.2由仿真评价的 Q-因子 ............................................................................. 251 

目录 IX 
6.4.3 Q-因子近似 ............................................................................................ 253 

6.5模型预测控制及相关方法................................................................................... 255 

6.5.1滚动时段近似 ......................................................................................... 255 

6.5.2模型预测控制中的稳定性问题.................................................................. 257 

6.5.3结构受限的策略...................................................................................... 262 

6.6近似动态规划中的额外主题 ............................................................................... 266 

6.6.1离散化 ................................................................................................... 266 

6.6.2其他近似方法 ......................................................................................... 268 

6.7注释、参考文献和习题 ...................................................................................... 269

第 7章无限阶段问题介绍 ............................................................................................ 280 

7.1概览................................................................................................................. 280 

7.2随机最短路径问题............................................................................................. 282 

7.3折扣问题 .......................................................................................................... 290 

7.4每阶段平均费用问题 ......................................................................................... 293 

7.5半马尔可夫问题 ................................................................................................ 303 

7.6注释、参考文献和习题 ...................................................................................... 310

附录 A数学知识复习 ................................................................................................... 320 

A.1集合................................................................................................................ 320 

A.2欧氏空间 ......................................................................................................... 321 

A.3矩阵................................................................................................................ 321 

A.4分析................................................................................................................ 324 

A.5凸集和凸函数 .................................................................................................. 325

附录 B优化理论 .......................................................................................................... 327 

B.1最优解............................................................................................................. 327 

B.2最优性条件 ...................................................................................................... 328 

B.3二次型最小化................................................................................................... 329

附录 C概率论 ............................................................................................................. 330 

C.1概率空间 ......................................................................................................... 330 

C.2随机变量 ......................................................................................................... 330 

C.3条件概率 ......................................................................................................... 331

附录 D关于有限状态马尔可夫链................................................................................... 333 

D.1平稳马尔可夫链 ............................................................................................... 333 

D.2状态分类 ......................................................................................................... 334 

D.3极限概率 ......................................................................................................... 334 

动态规划与最优控制——近似动态规划 (第 I卷) 
D.4首达时间 ......................................................................................................... 335

附录 E卡尔曼滤波 ....................................................................................................... 336 

E.1最小二乘估计................................................................................................... 336 

E.2线性最小二乘估计 ............................................................................................ 337 

E.3状态估计——卡尔曼滤波器 ............................................................................... 342 

E.4稳定性方面 ...................................................................................................... 346 

E.5高斯-马尔可夫估计器........................................................................................ 347 

E.6确定性最小二乘估计......................................................................................... 349

附录 F随机线性系统模型 ............................................................................................. 351 

F.1具有随机输入的线性系统 .................................................................................. 351 

F.2具有有理数谱的过程......................................................................................... 352 

F.3 ARMAX模型 .................................................................................................. 353

附录 G不确定性下的决策问题建模 ............................................................................... 354 

G.1不确定性下的决策问题 ..................................................................................... 354 

G.2期望效用理论和风险 ........................................................................................ 357 

G.3随机最优控制问题............................................................................................ 365

参考文献 ........................................................................................................................ 369