目录 第 1章智能决策与复杂系统 ......................................................... 1 1.1智能决策.....................................................................1 1.1.1智能决策简介 ......................................................... 1 1.1.2复杂金融系统中的智能决策 ........................................... 2 1.2复杂系统.....................................................................4 1.2.1复杂性科学 ........................................................... 4 1.2.2复杂系统定义 ......................................................... 6 1.2.3复杂系统类型 ......................................................... 6 1.2.4复杂系统研究 ......................................................... 8 1.3复杂环境特征 ...............................................................13 1.3.1完全可观察的和部分可观察的环境 ................................... 13 1.3.2单智能体和多智能体 ................................................. 14 1.3.3确定的和随机的环境 ................................................. 14 1.3.4片段式和延续式环境 ................................................. 15 1.3.5静态和动态环境 ..................................................... 15 1.3.6离散和连续环境 ..................................................... 16 1.3.7已知和未知环境 ..................................................... 16 1.4复杂环境建模 ...............................................................17 1.5智能体建模 ................................................................. 21 1.5.1典型决策系统模型框架 ...............................................21 1.5.2智能体建模框架 ..................................................... 21 1.6智能决策系统建模 .......................................................... 24 1.6.1问题提炼 ............................................................ 24 1.6.2数据采集 ............................................................ 25 1.6.3模型构建 ............................................................ 26 1.6.4算法实现 ............................................................ 26 1.6.5模型训练 ............................................................ 26 1.6.6模型验证 ............................................................ 26 1.6.7模型改进 ............................................................ 27 1.6.8模型运用 ............................................................ 27 1.7应用实践 ................................................................... 27 第 1章习题 ...................................................................... 29 第 2章人工智能与机器学习 ........................................................ 30 2.1人工智能简介 ...............................................................30 2.1.1人工智能 +农业 .................................................... 31 2.1.2人工智能 +教育 .................................................... 31 2.1.3人工智能 +工业 .................................................... 31 2.1.4人工智能 +金融 .................................................... 32 2.2人工智能前沿 ...............................................................32 2.3人工智能简史 ...............................................................33 2.4人工智能流派 ...............................................................34 2.4.1符号主义学派 ........................................................35 2.4.2联结主义学派 ........................................................36 2.4.3行为主义学派 ........................................................37 2.5人工智能基础 ...............................................................37 2.5.1运筹学...............................................................38 2.5.2最优化控制 .......................................................... 38 2.5.3交叉学科 ............................................................ 39 2.5.4人工智能和机器学习相关会议 ........................................ 39 2.6机器学习分类 ...............................................................39 2.6.1监督学习 ............................................................ 41 2.6.2无监督学习 .......................................................... 41 2.6.3强化学习 ............................................................ 43 2.7机器学习基础 ...............................................................44 2.7.1激活函数 ............................................................ 44 2.7.2损失函数 ............................................................ 46 2.7.3优化算法 ............................................................ 50 2.8应用实践 ................................................................... 57 第 2章习题 ...................................................................... 58 第 3章深度学习入门 ...............................................................59 3.1深度学习简介 ...............................................................59 3.1.1深度学习与人工智能 ................................................. 59 3.1.2深度学习与机器学习 ................................................. 59 3.1.3深度学习与表示学习 ................................................. 61 3.2深度神经网络 ...............................................................62 3.2.1深度神经网络构建 ................................................... 62 3.2.2深度神经网络实例 ................................................... 64 3.3深度卷积神经网络 .......................................................... 68 目录 3.4深度循环神经网络 .......................................................... 69 3.5深度图神经网络.............................................................71 3.5.1图神经网络简介 ..................................................... 72 3.5.2图神经网络聚合函数 ................................................. 72 3.5.3图神经网络更新函数 ................................................. 72 3.5.4图神经网络池化函数 ................................................. 73 3.6深度神经网络训练 .......................................................... 73 3.6.1模型训练挑战 ........................................................73 3.6.2数据预处理 .......................................................... 74 3.6.3参数初始化 .......................................................... 75 3.6.4学习率调整 .......................................................... 76 3.6.5梯度优化算法 ........................................................77 3.6.6超参数优化 .......................................................... 78 3.6.7正则化技术 .......................................................... 80 3.7应用实践 ................................................................... 80 3.7.1 TensorFlow安装.....................................................81 3.7.2 TensorFlow基本框架 ................................................ 81 3.7.3 TensorBoard.........................................................82 3.7.4 scikit-learn .......................................................... 82 3.7.5 Keras................................................................83 第 3章习题 ...................................................................... 83 第 4章强化学习入门 ...............................................................84 4.1强化学习简介 ...............................................................84 4.2马尔可夫决策过程 .......................................................... 86 4.3动态规划方法 ...............................................................87 4.3.1策略函数 ............................................................ 88 4.3.2奖励函数 ............................................................ 88 4.3.3累积回报 ............................................................ 89 4.3.4状态值函数 .......................................................... 89 4.3.5状态-动作值函数 .....................................................90 4.3.6状态-动作值函数与状态值函数的关系 ................................ 90 4.3.7 Bellman方程 ........................................................ 91 4.3.8策略迭代算法 ........................................................92 4.3.9值函数迭代算法 ..................................................... 95 4.4蒙特卡洛方法 ...............................................................97 4.4.1蒙特卡洛估计 ........................................................97 4.4.2蒙特卡洛强化学习算法伪代码 .......................................100 · VII · 4.5时序差分学习 ..............................................................100 4.5.1时序差分学习算法 .................................................. 100 4.5.2时序差分学习算法、动态规划和蒙特卡洛算法比较 .................. 101 4.5.3 Q-learning..........................................................102 4.5.4 SARSA.............................................................104 4.6策略梯度方法 ..............................................................105 4.7应用实践 .................................................................. 110 4.7.1强化学习的智能交易系统框架 .......................................110 4.7.2智能交易系统环境模型编程 ......................................... 110 第 4章习题 .....................................................................116 第 5章深度强化学习 Q网络 ..................................................... 117 5.1深度 Q网络 ............................................................... 117 5.1.1智能策略 ........................................................... 117 5.1.2策略函数与 Q表格 ................................................. 118 5.1.3策略函数与 Q网络 ................................................. 120 5.2 DQN算法介绍 ............................................................ 121 5.2.1经验回放 ........................................................... 121 5.2.2目标网络 ........................................................... 122 5.3 DQN算法 .................................................................123 5.4 DoubleDQN .............................................................. 125 5.4.1 Double DQN背景 .................................................. 125 5.4.2双 Q网络结构......................................................126 5.4.3 Double DQN算法伪代码 ........................................... 127 5.5 Dueling DQN..............................................................128 5.5.1 Dueling DQN算法框架简介 ........................................ 128 5.5.2 Dueling DQN算法核心思想 ........................................ 128 5.6 Distributional DQN ....................................................... 129 5.7 DQN的其他改进 .......................................................... 130 5.7.1优先级经验回放 .................................................... 131 5.7.2噪声网络 DQN ..................................................... 132 5.7.3多步(Multi-step)DQN............................................134 5.7.4分布式训练 ......................................................... 135 5.7.5 DQN算法改进 ..................................................... 136 5.7.6 DQN算法总结 ..................................................... 136 5.8应用实践 .................................................................. 137 5.8.1智能投资决策系统 .................................................. 137 5.8.2核心代码解析 .......................................................139 目录 5.8.3模型训练 ........................................................... 140 5.8.4模型测试 ........................................................... 142 第 5章习题 .....................................................................143 第 6章深度策略优化方法 ......................................................... 144 6.1策略梯度方法简介 ......................................................... 144 6.1.1 DQN的局限 ....................................................... 144 6.1.2策略梯度方法分类 .................................................. 145 6.2随机性策略梯度算法 ....................................................... 147 6.2.1轨迹数据 ........................................................... 147 6.2.2目标函数 ........................................................... 147 6.2.3梯度计算 ........................................................... 148 6.2.4更新策略 ........................................................... 150 6.3随机性策略梯度定理 ....................................................... 150 6.3.1随机性策略梯度定理介绍 ........................................... 150 6.3.2随机性策略梯度定理分析 ........................................... 151 6.4策略梯度优化几种实现方法 ................................................ 152 6.4.1策略梯度优化理论 .................................................. 152 6.4.2完整轨迹的累积奖励回报 ........................................... 152 6.4.3部分轨迹的累积奖励回报 ........................................... 153 6.4.4常数基线函数 .......................................................153 6.4.5基于状态的基线函数 ................................................153 6.4.6基于状态值函数的基线函数 ......................................... 154 6.4.7基于自举方法的梯度估计 ........................................... 154 6.4.8基于优势函数的策略梯度优化 .......................................154 6.5深度策略梯度优化算法.....................................................155 6.6置信阈策略优化算法 ....................................................... 157 6.6.1置信阈策略优化算法介绍 ........................................... 157 6.6.2重要性采样 ......................................................... 158 6.6.3置信阈策略优化算法核心技巧 .......................................160 6.6.4置信阈策略优化算法伪代码 ......................................... 160 6.7近端策略优化算法 ......................................................... 162 6.7.1近端策略优化算法介绍..............................................162 6.7.2近端策略优化算法核心技巧 ......................................... 162 6.7.3近端策略优化算法(PPO2)伪代码 .................................164 6.8应用实践 .................................................................. 165 6.8.1模型参数 ........................................................... 166 6.8.2模型训练 ........................................................... 167 · IX · 6.8.3模型测试 ........................................................... 167 第 6章习题 .....................................................................168 第 7章深度确定性策略梯度方法 .................................................. 169 7.1确定性策略梯度方法应用场景 ..............................................169 7.2策略梯度方法比较 ......................................................... 170 7.3确定性策略函数的深度神经网络表示 ....................................... 172 7.4确定性策略梯度定理 ....................................................... 173 7.5深度确定性策略梯度算法 .................................................. 175 7.5.1算法核心介绍 .......................................................175 7.5.2经验回放 ........................................................... 176 7.5.3目标网络 ........................................................... 176 7.5.4参数软更新 ......................................................... 177 7.5.5深度确定性策略梯度算法伪代码 .................................... 178 7.6孪生延迟确定性策略梯度算法 ..............................................179 7.6.1 TD3算法介绍 ...................................................... 179 7.6.2 TD3算法的改进 ....................................................179 7.6.3 TD3算法伪代码 ....................................................181 7.7应用实践 .................................................................. 183 7.7.1核心代码解析 .......................................................183 7.7.2模型训练 ........................................................... 184 7.7.3模型测试 ........................................................... 184 第 7章习题 .....................................................................185 第 8章 Actor-Critic算法 ........................................................186 8.1 Actor-Critic简介 .......................................................... 186 8.2 AC算法 ...................................................................187 8.2.1 AC算法介绍 ....................................................... 187 8.2.2 AC算法参数更新...................................................188 8.2.3 AC算法伪代码 ..................................................... 189 8.3 A2C算法..................................................................190 8.3.1 A2C算法介绍 ...................................................... 190 8.3.2优势函数和基线函数 ................................................192 8.3.3 A2C算法伪代码 ....................................................193 8.4 A3C算法..................................................................193 8.4.1 A3C算法介绍 ...................................................... 194 8.4.2 A3C算法的改进和优化 .............................................194 8.4.3 A3C算法伪代码 ....................................................196 8.5 SAC算法 ................................................................. 197 目录 8.5.1 SAC算法介绍 ...................................................... 197 8.5.2智能体动作多样性 .................................................. 198 8.5.3 SAC算法理论核心 ................................................. 199 8.5.4 SAC算法伪代码....................................................201 8.6应用实践 .................................................................. 203 8.6.1核心代码解析 .......................................................203 8.6.2模型训练 ........................................................... 204 8.6.3模型测试 ........................................................... 204 第 8章习题 .....................................................................205 第 9章深度强化学习与规划 .......................................................206 9.1学习与规划 ................................................................ 206 9.2基于模型的深度强化学习 .................................................. 207 9.2.1深度强化学习模型分类..............................................207 9.2.2深度强化学习中的学习模块 ......................................... 208 9.2.3深度强化学习中的规划模块 ......................................... 209 9.3 Dyna框架 .................................................................210 9.3.1 Dyna框架介绍 ..................................................... 210 9.3.2 Dyna框架的模型学习 .............................................. 211 9.4 Dyna-Q算法 .............................................................. 212 9.4.1 Dyna-Q算法介绍...................................................212 9.4.2 Dyna-Q算法伪代码 ................................................ 213 9.5 Dyna-Q改进 .............................................................. 215 9.6 Dyna-2框架 ...............................................................217 9.7应用实践 .................................................................. 218 9.7.1编程实践模块介绍 .................................................. 218 9.7.2 Gym ............................................................... 218 9.7.3强化学习代码库 .................................................... 219 第 9章习题 .....................................................................221 第 10章深度强化学习展望 ........................................................223 10.1深度强化学习背景 ........................................................ 223 10.1.1源于学科交叉 ..................................................... 223 10.1.2用于序贯决策 ..................................................... 223 10.1.3强于深度学习 ..................................................... 224 10.2深度强化学习简史 ........................................................ 224 10.2.1游戏控制崭露头角 ................................................. 224 10.2.2 AlphaGo风靡全球 ................................................ 225 10.2.3通用智能备受期待 ................................................. 225 · XI · 10.3深度强化学习分类 ........................................................ 226 10.3.1基于值函数和基于策略函数的深度强化学习 ........................ 226 10.3.2基于模型和无模型的深度强化学习 ................................. 226 10.3.3异策略和同策略学习 ...............................................228 10.4深度强化学习面临的挑战 ................................................. 228 10.4.1样本效率 .......................................................... 228 10.4.2灾难性遗忘 ........................................................229 10.4.3虚实映射鸿沟 ..................................................... 230 10.4.4有效表征学习 ..................................................... 231 10.4.5可拓展性与规模化 ................................................. 232 10.4.6延迟奖励 .......................................................... 233 10.4.7稀疏奖励 .......................................................... 233 10.4.8探索和利用 ........................................................234 10.4.9复杂动态环境 ..................................................... 235 10.5深度强化学习前沿 ........................................................ 236 10.5.1多智能体深度强化学习 ............................................ 236 10.5.2深度逆向强化学习 ................................................. 237 10.5.3模仿学习 .......................................................... 238 10.5.4行为克隆 .......................................................... 239 10.5.5图强化学习 ........................................................241 10.6深度强化学习实践 ........................................................ 241 10.6.1深度强化学习建模框架 ............................................ 241 10.6.2深度强化学习模型的核心模块......................................242 第 10章习题 ....................................................................245