目录 第 1 章 阿尔法零、离线训练和在线学习 1 1.1 离线训练和策略迭代 3 1.2 在线学习与值空间近似——截断滚动 4 1.3 阿尔法零的经验 6 1.4 强化学习的一种新概念框架 8 1.5 注释与参考文献 9 第 2 章 确定性和随机的动态规划 13 2.1 无限时段上的最优控制 14 2.2 值空间近似 18 2.3 注释与参考文献 . 21 第 3 章 强化学习的抽象视角 22 3.1 贝尔曼算子 23 3.2 值空间近似和牛顿法 28 3.3 稳定域 32 3.4 策略迭代、滚动和牛顿法 36 3.5 在线对弈对于离线训练过程有多敏感? 41 3.6 何不直接训练策略网络并在使用时摒弃在线对弈呢? 43 3.7 多智能体问题和多智能体滚动 44 3.8 在线简化策略迭代 47 3.9 例外情形 52 3.10 注释与参考文献 57 第 4 章 线性二次型情形——例证 59 4.1 最优解 60 4.2 稳定线性策略的费用函数 61 4.3 值迭代 63 4.4 单步和多步前瞻——牛顿步的解释 64 4.5 灵敏度问题 67 4.6 滚动和策略迭代 . 69 4.7 截断滚动——前瞻长度问题 71 4.8 线性二次型问题中的例外行为 73 4.9 注释与参考文献 . 74 第 5 章 自适应和模型预测控制 75 5.1 具有未知参数的系统——鲁棒和 PID 控制 76 5.2 值空间近似、滚动和自适应控制 . 78 5.3 值空间近似、滚动和模型预测控制 81 5.4 末端费用近似——稳定性问题 83 5.5 注释与参考文献 . 87 第 6 章 有限时段确定性问题——离散优化 88 6.1 确定性离散空间有限时段问题 89 6.2 一般离散优化问题 92 6.3 值空间近似 95 6.4 离散优化的滚动算法 98 6.5 采用多步前瞻的滚动——截断滚动 111 6.6 约束形式的滚动算法 114 6.7 使用部分可观马尔可夫决策问题模型滚动的自适应控制 124 6.8 极小化极大控制的滚动 . 130 6.9 小阶段费用与长时段——连续时间滚动 136 6.10 结语 142 附录 A 不动点问题的牛顿法 145 A.1 可微不动点问题的牛顿法 145 A.2 无须贝尔曼算子可微性的牛顿法 148 参考文献 152