《强化学习原理及其套用》是2014年6月1日科学出版社出版的图书,作者是王雪松、朱美强、程玉虎。
基本介绍
- 书名:强化学习原理及其套用
- 作者:王雪松、朱美强、程玉虎
- ISBN:9787030406408
- 页数:272
- 定价:89.00
- 出版社:科学出版社
- 出版时间:2014年6月1日
- 装帧:平装
- 开本:16
- 丛书名:智慧型科学技术着作丛书
内容简介
作为一类求解序贯最佳化决策问题的有效方法,强化学习在运筹学、计算科学和自动控制等领域得到广泛套用,业已成为机器学习领域活跃的研究分支之一。现阶段,强化学习研究的核心问题是如何解决维数灾难,提高学习效率。强化学习原理及其套用的主要内容正是针对上述问题展开的,分别从值函式逼近、直接策略搜寻和基于谱方法的学习3 个方面来阐述强化学习的理论、方法及其套用,共13 章。第1 章~第2 章为强化学习概述和相关基础理论。第3 章~第5 章为基于值函式估计的强化学习方法,包括基于支持向量机、测地高斯基的强化学习和基于抽象状态的贝叶斯强化学习。第6 章~第9 章为直接策略搜寻强化学习方法,包括基于增量小二乘时间差分的ActorCritic 学习、融合经验数据的Actor-Critic 强化学习、基于资格迹的折扣回报型增量自然Actor-Critic 学习和基于参数探索的期望大策略搜寻。第10 章~第13章为基于谱方法的强化学习研究,包括基于拉普拉斯特徵映射的启发式策略选择、DynA 规划和迁移研究。为便于套用强化学习原理及其套用阐述的算法,书后附有部分强化学习算法MATLAB 源程式。
图书目录
《智慧型科学技术着作丛书》序序前言第 1章强化学习概述 t1
1.1强化学习模型及其基本要素 t 2
1.1.1强化学习模型 t 2
1.1.2强化学习基本要素 t 3
1.2强化学习的发展历史 t 5
1.2.1试错学习 t 5
1.2.2动态规划与zui优控制 t 6
1.2.3时间差分学习 t 7
1.3强化学习研究概述 t 7
1.3.1分层强化学习研究现状 t 8
1.3.2近似强化学习研究现状 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10
1.3.3启发式回报函式设计研究现状 t 15
1.3.4探索和利用平衡研究现状 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16
1.3.5基于谱图理论的强化学习研究现状 t 17
1.4强化学习方法的套用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.1自适应最佳化控制中的套用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19
1.4.2调度管理中的套用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.3人工智慧问题求解中的套用 t 22
1.1强化学习模型及其基本要素 t 2
1.1.1强化学习模型 t 2
1.1.2强化学习基本要素 t 3
1.2强化学习的发展历史 t 5
1.2.1试错学习 t 5
1.2.2动态规划与zui优控制 t 6
1.2.3时间差分学习 t 7
1.3强化学习研究概述 t 7
1.3.1分层强化学习研究现状 t 8
1.3.2近似强化学习研究现状 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10
1.3.3启发式回报函式设计研究现状 t 15
1.3.4探索和利用平衡研究现状 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16
1.3.5基于谱图理论的强化学习研究现状 t 17
1.4强化学习方法的套用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.1自适应最佳化控制中的套用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19
1.4.2调度管理中的套用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.3人工智慧问题求解中的套用 t 22
1.5本书主要内容及安排 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
第 2章强化学习基础理论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.1马尔科夫决策过程概述 t 41
2.1.1马尔科夫决策过程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.1.2策略和值函式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2基于模型的动态规划方法 t 44
2.2.1线性规划 t 45
2.2.2策略叠代 t 45
2.2.3值叠代 t 46
2.2.4广义策略叠代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3模型未知的强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.1强化学习基础 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.2蒙特卡罗法 t 49
2.3.3时间差分 TD法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .54
2.3.4 Q学习与 SARSA学习 t 56
2.3.5 DynA学习框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .57
2.3.6直接策略方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3.7 Actor-Critic学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .60
2.4近似强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.4.1带值函式逼近的 TD学习 t 61
2.4.2近似值叠代 t 63
2.4.3近似策略叠代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.4.4zui小二乘策略叠代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.1.1马尔科夫决策过程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.1.2策略和值函式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2基于模型的动态规划方法 t 44
2.2.1线性规划 t 45
2.2.2策略叠代 t 45
2.2.3值叠代 t 46
2.2.4广义策略叠代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3模型未知的强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.1强化学习基础 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.2蒙特卡罗法 t 49
2.3.3时间差分 TD法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .54
2.3.4 Q学习与 SARSA学习 t 56
2.3.5 DynA学习框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .57
2.3.6直接策略方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3.7 Actor-Critic学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .60
2.4近似强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.4.1带值函式逼近的 TD学习 t 61
2.4.2近似值叠代 t 63
2.4.3近似策略叠代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.4.4zui小二乘策略叠代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.5本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
第 3章基于支持向量机的强化学习 t 71
3.1支持向量机原理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .71
3.1.1机器学习 t 72
3.1.2核学习 t 73
3.1.3 SVM的思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.1.4 SVM的重要概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.2基于半参数支持向量机的强化学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .75
3.2.1基于半参数回归模型的 Q学习结构 t 76
3.2.2半参数回归模型的学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .78
3.2.3仿真研究 t 79
3.3基于机率型支持向量机的强化学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .82
3.3.1基于机率型支持向量机分类机的 Q学习 t 82
3.3.2机率型支持向量分类机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .83
3.3.3仿真研究 t 85
3.1.1机器学习 t 72
3.1.2核学习 t 73
3.1.3 SVM的思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.1.4 SVM的重要概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.2基于半参数支持向量机的强化学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .75
3.2.1基于半参数回归模型的 Q学习结构 t 76
3.2.2半参数回归模型的学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .78
3.2.3仿真研究 t 79
3.3基于机率型支持向量机的强化学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .82
3.3.1基于机率型支持向量机分类机的 Q学习 t 82
3.3.2机率型支持向量分类机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .83
3.3.3仿真研究 t 85
3.4本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
第 4章基于状态 --动作图测地高斯基的策略叠代强化学习 t 90
4.1强化学习中的基函式选择 t 90
4.2基于状态–动作图测地高斯基的策略叠代. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .91
4.2.1 MDP的状态 –动作空间图 t 92
4.2.2状态 –动作图上测地高斯核 t 93
4.2.3基于状态 –动作图测地高斯基的动作值函式逼近 . . . . . . . . . . . . . . . . . . . . . . . 94
4.3算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.2基于状态–动作图测地高斯基的策略叠代. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .91
4.2.1 MDP的状态 –动作空间图 t 92
4.2.2状态 –动作图上测地高斯核 t 93
4.2.3基于状态 –动作图测地高斯基的动作值函式逼近 . . . . . . . . . . . . . . . . . . . . . . . 94
4.3算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.5本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .104
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
第 5章基于抽象状态的贝叶斯强化学习电梯群组调度 . . . . . . . . . . . . . . . . . . . . . . 106
5.1电梯群组调度强化学习模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .107
5.2基于抽象状态的贝叶斯强化学习电梯群组调度 t 108
5.2.1状态空间抽象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.2.2强化学习系统的回报函式 t 110
5.2.3贝叶斯网推断 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.2.4状态 –动作值函式的神经网路逼近 t 111
5.2.5动作选择策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .112
5.2基于抽象状态的贝叶斯强化学习电梯群组调度 t 108
5.2.1状态空间抽象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.2.2强化学习系统的回报函式 t 110
5.2.3贝叶斯网推断 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.2.4状态 –动作值函式的神经网路逼近 t 111
5.2.5动作选择策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .112
5.4本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .115
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
第 6章基于增量zui小二乘时间差分的 Actor-Critic学习 t 117
6.1策略梯度理论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.2基于常规梯度的增量式 Actor-Critic学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.3基于 iLSTD(λ)的 Actor-Critic学习 t 121
6.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .123
6.2基于常规梯度的增量式 Actor-Critic学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.3基于 iLSTD(λ)的 Actor-Critic学习 t 121
6.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .123
6.5本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .126
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
第 7章融合经验数据的 Actor-Critic强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
7.1增量式 Actor-Critic学习算法的数据有效性改进 . . . . . . . . . . . . . . . . . . . . . 128
7.1.1基于 RLSTD(λ)或 iLSTD(λ)的增量式 Actor-Critic学习 t 130
7.1.2算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
7.1.3仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.2基于自适应重要採样的 Actor-Critic学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
7.2.1基于zui小二乘时间差分的 Actor-Critic强化学习 t 141
7.2.2基于重要採样的估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .143
7.2.3基于自适应重要採样的估计 t 145
7.2.4算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.2.5仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.1.1基于 RLSTD(λ)或 iLSTD(λ)的增量式 Actor-Critic学习 t 130
7.1.2算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
7.1.3仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.2基于自适应重要採样的 Actor-Critic学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
7.2.1基于zui小二乘时间差分的 Actor-Critic强化学习 t 141
7.2.2基于重要採样的估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .143
7.2.3基于自适应重要採样的估计 t 145
7.2.4算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.2.5仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.3本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .150
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
第 8章基于资格迹的折扣回报型增量自然 Actor-Critic学习 t 153
8.1自然梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .154
8.2自然策略梯度的估计方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.2.1基于 Fisher信息矩阵的自然策略梯度 t 155
8.2.2基于兼容函式逼近器的自然策略梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
8.2.3自然策略梯度的仿真 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .157
8.2.4自然策略梯度的特性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .158
8.3基于资格迹的折扣回报型增量自然 Actor-Critic学习 t 158
8.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .161
8.2自然策略梯度的估计方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.2.1基于 Fisher信息矩阵的自然策略梯度 t 155
8.2.2基于兼容函式逼近器的自然策略梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
8.2.3自然策略梯度的仿真 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .157
8.2.4自然策略梯度的特性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .158
8.3基于资格迹的折扣回报型增量自然 Actor-Critic学习 t 158
8.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .161
8.5本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .164
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
第 9章基于参数探索的 EM策略搜寻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .166
9.1策略搜寻强化学习方法分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .166
9.2期望化策略搜寻强化学习 t 167
9.3基于参数探索的 EM策略搜寻学习 t 169
9.4算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .171
9.5仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .172
9.5.1小球平衡问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
9.5.2倒立摆平衡问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
9.2期望化策略搜寻强化学习 t 167
9.3基于参数探索的 EM策略搜寻学习 t 169
9.4算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .171
9.5仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .172
9.5.1小球平衡问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
9.5.2倒立摆平衡问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
9.6本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .177
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
第 10章基于谱图理论的强化学习基础 t 180
10.1谱图理论与谱图分割. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .180
10.1.1谱图理论与谱方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .180
10.1.2谱图分割和谱聚类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .181
10.2基于谱图理论的流形和距离度量学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.2.1流形学习概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.2.2基于流形学习的度量学习 t 183
10.3基于拉普拉斯特徵映射法的强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
10.3.1拉普拉斯特徵映射法基础 t 185
10.3.2基于拉普拉斯特徵映射的强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
10.1.1谱图理论与谱方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .180
10.1.2谱图分割和谱聚类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .181
10.2基于谱图理论的流形和距离度量学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.2.1流形学习概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.2.2基于流形学习的度量学习 t 183
10.3基于拉普拉斯特徵映射法的强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
10.3.1拉普拉斯特徵映射法基础 t 185
10.3.2基于拉普拉斯特徵映射的强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
10.4基于拉普拉斯特徵映射的强化学习分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . .190
10.5本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .191
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
第 11章基于拉普拉斯特徵映射的启发式策略选择 t 194
11.1探索和利用平衡问题概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
11.2启发式策略选择原理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .195
11.3基于拉普拉斯特徵映射的启发式策略选择 t 196
11.3.1基本思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
11.3.2基于拉普拉斯特徵映射的启发式 Q学习 t 197
11.4算法步骤、计算複杂度和适用範围 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
11.4.1算法主要步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
11.4.2计算複杂度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
11.4.3适用範围 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
11.5仿真研究. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .203
11.5.1 5房间格子世界 t 203
11.5.2对称 4房间格子世界 t 205
11.1探索和利用平衡问题概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
11.2启发式策略选择原理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .195
11.3基于拉普拉斯特徵映射的启发式策略选择 t 196
11.3.1基本思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
11.3.2基于拉普拉斯特徵映射的启发式 Q学习 t 197
11.4算法步骤、计算複杂度和适用範围 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
11.4.1算法主要步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
11.4.2计算複杂度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
11.4.3适用範围 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
11.5仿真研究. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .203
11.5.1 5房间格子世界 t 203
11.5.2对称 4房间格子世界 t 205
11.6本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .206
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
第12章基于拉普拉斯特徵映射的 DynA规划 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .208
12.1强化学习在移动机器人自主导航中的套用研究概述. . . . . . . . . . . . . . . . .208
12.2强化学习在井下救援机器人导航中的套用研究 t 209
12.3基于拉普拉斯特徵映射的 DynA Q算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .210
12.3.1 DynA Q的基本思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
12.3.2基于谱图理论的优先权机制 t 211
12.3.3算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
12.3.4计算複杂度分析和适用範围 t 212
12.4仿真结果及分析 t 212
12.4.1 5房间格子地图 t 213
12.4.2对称 4房间格子地图 t 213
12.4.3 9房间格子地图 t 214
12.2强化学习在井下救援机器人导航中的套用研究 t 209
12.3基于拉普拉斯特徵映射的 DynA Q算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .210
12.3.1 DynA Q的基本思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
12.3.2基于谱图理论的优先权机制 t 211
12.3.3算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
12.3.4计算複杂度分析和适用範围 t 212
12.4仿真结果及分析 t 212
12.4.1 5房间格子地图 t 213
12.4.2对称 4房间格子地图 t 213
12.4.3 9房间格子地图 t 214
12.5本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .215
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
第 13章基于谱方法的强化学习迁移研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
13.1基于谱图理论的强化学习迁移 t 217
13.1.1强化学习迁移概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .217
13.1.2基于谱图理论的强化学习迁移分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
13.2基于谱图理论的 Option自动生成研究. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .220
13.2.1 Option原理 t 220
13.2.2基于谱图分割的 Option自动生成算法概述 t 221
13.2.3虚拟值函式法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
13.3基于谱图理论的强化学习混合迁移方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . .226
13.3.1基函式的线性插值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .226
13.3.2迁移基函式的逼近能力 t 227
13.3.3基函式与子任务策略的混合迁移 t 230
13.4算法步骤和适用範围. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .231
13.4.1算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
13.4.2适用範围 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
13.5仿真实验与分析 t 232
13.5.1地图不变迁移 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
13.5.2地图比例放大迁移 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .233
13.5.3实验结果统计分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .235
13.1.1强化学习迁移概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .217
13.1.2基于谱图理论的强化学习迁移分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
13.2基于谱图理论的 Option自动生成研究. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .220
13.2.1 Option原理 t 220
13.2.2基于谱图分割的 Option自动生成算法概述 t 221
13.2.3虚拟值函式法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
13.3基于谱图理论的强化学习混合迁移方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . .226
13.3.1基函式的线性插值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .226
13.3.2迁移基函式的逼近能力 t 227
13.3.3基函式与子任务策略的混合迁移 t 230
13.4算法步骤和适用範围. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .231
13.4.1算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
13.4.2适用範围 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
13.5仿真实验与分析 t 232
13.5.1地图不变迁移 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
13.5.2地图比例放大迁移 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .233
13.5.3实验结果统计分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .235
13.6本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .237
参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
附录