没有合适的资源?快使用搜索试试~ 我知道了~
INSIGHTS IN REINFORCEMENT LEARNING(Hado van Hasselt).pdf
需积分: 10 7 下载量 125 浏览量
2018-01-17
19:29:06
上传
评论 1
收藏 1.83MB PDF 举报
温馨提示
试读
282页
Formal analysis and empirical evaluation of temporal-difference learning algorithms
资源推荐
资源详情
资源评论
INSIGHTS IN
REINFORCEMENT LEARNING
Formal analysis and empirical evaluation of
temporal-difference learning algorithms
Hado van Hasselt
This research was supported by the Netherlands Organisation for Scientific
Research (NWO) under project number 612.066.514.
SIKS Dissertation Series No. 2011-04
The research reported in this thesis has been carried out under the auspices
of SIKS, the Dutch Research School for Information and Knowledge Systems.
© 2010 Hado Philip van Hasselt
Printed by Wöhrmann Print Service
ISBN 978-90-39354964
INSIGHTS IN
REINFORCEMENT LEARNING
Formal analysis and empirical evaluation of
temporal-difference learning algorithms
INZICHTEN IN REINFORCEMENT LEARNING
Formele analyse and empirische evaluatie van
algoritmes die leren van temporele verschillen
(met een samenvatting in het Nederlands)
PROEFSCHRIFT
ter verkrijging van de graad van doctor aan de Universiteit U trecht
op gezag van de rector magnificus, prof.dr. J.C. Stoof, ingevolge het
besluit van het college voor promoties in het openbaar te verdedigen
op maandag 17 januari 2011 des middags te 4.15 uur
door
Hado Philip van Hasselt
geboren op 12 september 1979 te Utrecht
Promotoren: Prof.dr. J.-J.Ch. Meyer
Prof.dr. L.R.B. Schomaker
Co-promotor: Dr. M.A. Wiering
Dit proefschrift werd mede mogelijk gemaakt met financiële steun van de
Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO).
CONTENTS
Contents 1
1 Introduction 3
1.1 The Aim of this Dissertation . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Previous Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Reinforcement Learning 17
2.1 Markov Decision Processes . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Dynamic Programming . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3 Model-Free Value Learning . . . . . . . . . . . . . . . . . . . . . . 33
2.4 Learning Action Values . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3 Estimation Biases in Maximization 51
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2 Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.3 The Single Estimator . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4 The Double Estimator . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.5 Comparing the Single and Double Estimator . . . . . . . . . . . . 65
3.6 A Comparison on Uniform Variables . . . . . . . . . . . . . . . . . 66
3.7 The Effect of More Samples . . . . . . . . . . . . . . . . . . . . . . 70
3.8 The Effect of More Variables . . . . . . . . . . . . . . . . . . . . . . 73
3.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.10 Proofs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4 The Overestimation of Q-learning 85
4.1 Context and Contributions . . . . . . . . . . . . . . . . . . . . . . . 86
4.2 Overestimations in Bandit Problems . . . . . . . . . . . . . . . . . 89
4.3 Convergence Rates of Q-learning . . . . . . . . . . . . . . . . . . . 94
4.4 Double Q-learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.5 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.7 Proofs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
1
剩余281页未读,继续阅读
资源评论
zwxeye
- 粉丝: 12
- 资源: 47
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功