图书介绍
大规模强化学习PDF|Epub|txt|kindle电子书版本网盘下载
- 刘全,傅启明,钟珊,黄蔚著 著
- 出版社: 北京:科学出版社
- ISBN:7030477477
- 出版时间:2016
- 标注页数:277页
- 文件大小:37MB
- 文件页数:290页
- 主题词:
PDF下载
下载说明
大规模强化学习PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 强化学习概述1
1.1 简介1
1.2 形式框架3
1.2.1 马尔可夫决策过程3
1.2.2 策略6
1.2.3 回报7
1.3 值函数7
1.4 解决强化学习问题9
1.4.1 动态规划:基于模型的解决技术9
1.4.2 强化学习:模型无关的解决技术16
1.5 本章小结20
参考文献21
第2章 大规模或连续状态空间的强化学习23
2.1 简介23
2.2 近似表示24
2.2.1 带参数化值函数逼近24
2.2.2 非参数化值函数逼近28
2.3 值函数逼近求解方法29
2.3.1 梯度下降方法30
2.3.2 最小二乘回归31
2.4 本章小结31
参考文献32
第3章 梯度下降值函数逼近模型的改进33
3.1 改进的梯度下降值函数逼近模型33
3.1.1 势函数塑造奖赏机制33
3.1.2 基于势函数塑造奖赏机制的值函数逼近模型35
3.2 NRBF-GD-Sarsa(λ)算法36
3.2.1 算法描述36
3.2.2 算法收敛性分析37
3.3 仿真实验39
3.3.1 实验描述39
3.3.2 实验设置40
3.3.3 实验分析41
3.4 本章小结43
参考文献44
第4章 基于LSSVR的Q-值函数分片逼近模型45
4.1 LSSVR-Q-值函数分片逼近模型45
4.2 在线稀疏化样本池构建方法48
4.3 LSSVR-Q算法49
4.4 仿真实验49
4.4.1 实验1:Mountain Car问题51
4.4.2 实验2:DC Motor问题54
4.5 本章小结57
参考文献58
第5章 基于ANRBF网络的Q-V值函数协同逼近模型59
5.1 Q-V值函数协同机制59
5.2 Q-V值函数协同逼近模型61
5.3 Q-V值函数协同逼近算法63
5.3.1 QV(λ)算法63
5.3.2 算法收敛性分析65
5.4 仿真实验67
5.4.1 实验描述67
5.4.2 实验设置68
5.4.3 实验分析68
5.5 本章小结73
参考文献73
第6章 基于高斯过程的快速Sarsa算法75
6.1 新的值函数概率生成模型75
6.2 利用高斯过程对线性带参值函数建模77
6.3 FL-GPSarsa算法78
6.4 仿真实验81
6.4.1 带风的格子世界问题81
6.4.2 Mountain Car问题84
6.5 本章小结86
参考文献87
第7章 基于高斯过程的Q学习算法88
7.1 值迭代方法88
7.2 用于值迭代的值函数概率生成模型89
7.3 GP-QL算法90
7.4 仿真实验93
7.4.1 实验1:带悬崖的格子世界问题93
7.4.2 实验2:Mountain Car问题96
7.5 本章小结97
参考文献97
第8章 最小二乘策略迭代算法99
8.1 马尔可夫决策过程99
8.2 最小二乘策略迭代100
8.2.1 投影贝尔曼等式的矩阵形式100
8.2.2 最小二乘策略迭代103
8.2.3 在线最小二乘策略迭代104
8.3 本章小结106
参考文献106
第9章 批量最小二乘策略迭代算法107
9.1 批量强化学习算法107
9.2 批量最小二乘策略迭代算法108
9.3 算法分析111
9.3.1 收敛性分析111
9.3.2 复杂度分析113
9.4 仿真实验114
9.4.1 实验描述114
9.4.2 实验设置115
9.4.3 实验分析115
9.5 本章小结120
参考文献120
第10章 自动批量最小二乘策略迭代算法122
10.1 定点步长参数评估方法122
10.2 自动批量最小二乘策略迭代算法124
10.3 仿真实验125
10.3.1 实验描述125
10.3.2 实验分析125
10.4 本章小结130
参考文献130
第11章 连续动作空间的批量最小二乘策略迭代算法132
11.1 二值动作搜索132
11.2 快速特征选择133
11.3 连续动作空间的快速特征选择批量最小二乘策略迭代算法134
11.4 仿真实验136
11.4.1 实验描述136
11.4.2 实验设置136
11.4.3 实验分析136
11.5 本章小结140
参考文献141
第12章 一种基于双层模糊推理的Sarsa(λ)算法143
12.1 Q-值函数的计算和FIS的参数更新143
12.2 DFR-Sarsa(λ)算法146
12.2.1 DFR-Sarsa(λ)算法的学习过程146
12.2.2 算法收敛性分析147
12.3 仿真实验149
12.3.1 Mountain Car149
12.3.2 平衡杆151
12.4 本章小结153
参考文献153
第13章 一种基于区间型二型模糊推理的Sarsa(λ)算法155
13.1 近似Q-值函数的计算和参数的更新155
13.2 IT2FI-Sarsa(λ)算法的学习过程157
13.3 算法收敛性分析158
13.4 仿真实验162
13.4.1 实验设置163
13.4.2 实验分析163
13.5 本章小结165
参考文献165
第14章 一种带有自适应基函数的模糊值迭代算法167
14.1 基函数的近似性能评价167
14.2 基函数的自适应细化更新方式169
14.3 ABF-QI算法170
14.3.1 ABF-QI算法的学习过程170
14.3.2 算法收敛性分析171
14.4 仿真实验172
14.4.1 问题描述与参数设置172
14.4.2 实验分析172
14.5 本章小结175
参考文献175
第15章 基于状态空间分解和智能调度的并行强化学习177
15.1 IS-SRL和IS-SPRL177
15.1.1 子问题的学习过程177
15.1.2 IS-SPRL的消息传递和调度180
15.1.3 学习步骤181
15.2 加权优先级调度算法183
15.3 收敛性分析186
15.3.1 模型和假设187
15.3.2 基于IS-SRL和IS-SPRL的Q学习算法的收敛性188
15.4 仿真实验190
15.4.1 不同调度算法的比较191
15.4.2 算法在不同参数下的性能比较191
15.4.3 不同算法的收敛速度的比较193
15.4.4 结果分析195
15.5 本章小结195
参考文献196
第16章 基于资格迹的并行时间信度分配强化学习算法198
16.1 资格迹与强化学习199
16.2 并行时间信度分配200
16.3 性能优化与系统容错203
16.3.1 状态迁移预测203
16.3.2 故障预防和恢复203
16.4 仿真实验204
16.5 本章小结206
参考文献207
第17章 基于并行采样和学习经验复用的E3算法209
17.1 E3算法209
17.2 学习经验复用212
17.3 并行E3算法212
17.4 系统容错215
17.5 仿真实验216
17.6 本章小结219
参考文献219
第18章 基于线性函数逼近的离策略Q(λ)算法221
18.1 离策略强化学习221
18.1.1 梯度下降法与线性函数逼近221
18.1.2 离策略强化学习算法224
18.2 GDOP-Q(λ)算法226
18.2.1 GDOP-Q(λ)226
18.2.2 收敛性分析227
18.3 仿真实验230
18.4 本章小结234
参考文献234
第19章 基于二阶TD Error的Q(λ)算法236
19.1 二阶TD Error快速Q(λ)算法236
19.1.1 二阶TD Error236
19.1.2 资格迹238
19.1.3 SOE-FQ(λ)238
19.1.4 算法收敛性及时间复杂度分析239
19.2 仿真实验244
19.2.1 Random Walk问题244
19.2.2 Mountain Car问题247
19.3 本章小结248
参考文献249
第20章 基于值函数迁移的快速Q-Learning算法251
20.1 自模拟度量与状态之间的距离252
20.2 基于值函数迁移的Q-Learning算法254
20.2.1 基于自模拟度量的值函数迁移254
20.2.2 VFT-Q-Learning256
20.3 仿真实验257
20.3.1 问题描述257
20.3.2 实验设置258
20.3.3 实验分析258
20.4 本章小结262
参考文献263
第21章 离策略带参贝叶斯强化学习算法264
21.1 高斯过程264
21.2 基于高斯过程的离策略带参近似策略迭代算法265
21.2.1 基于高斯过程的值函数参数估计265
21.2.2 基于VPI的动作选择方法269
21.2.3 GP-OPPAPI270
21.3 仿真实验273
21.4 本章小结275
参考文献276