ReinforcementLearning_AnIntroduction（英文优秀专业书籍推荐）.pdf资源-CSDN文库

需积分: 8 26 浏览量 2022-12-02 14:23:50 上传评论收藏 14.88MB PDF 举报

"Reinforcement Learning_An Introduction" Reinforcement Learning（强化学习）是一种机器学习方法，它可以通过与环境交互来学习最优策略。这种方法可以应用于robotics、游戏、finance等领域。书籍“Reinforcement Learning: An Introduction”是Richard S. Sutton和Andrew G. Barto合著的，讲述了强化学习的基本概念、算法和应用。该书籍是强化学习领域的经典作品，广泛应用于学术研究和工业实践中。书籍的主要内容包括： 1. 强化学习的基本概念：状态、动作、奖励、策略、价值函数等。 2..Tabular Solution Methods（表格解决方法）：介绍了强化学习中使用表格来表示和更新策略的方法。 3. Multi-armed Bandits（多臂bandit问题）：讨论了强化学习中如何选择动作以maximize奖励的方法。 4. Model-based Reinforcement Learning（基于模型的强化学习）：讨论了如何使用模型来represent环境和学习策略。书籍还讨论了强化学习的历史发展、挑战和未来趋势等内容。强化学习的应用非常广泛，包括： 1. Robotics：强化学习可以应用于机器人控制、感知和决策等领域。 2. Games：强化学习可以应用于游戏AI、游戏bots等领域。 3. Finance：强化学习可以应用于金融市场预测、投资决策等领域。 4. Healthcare：强化学习可以应用于医疗保健、疾病诊断等领域。该书籍为读者提供了一个系统的了解强化学习的机会，并展示了强化学习在多个领域的应用前景。在机器学习和人工智能领域，强化学习是一种非常重要的技术，可以应用于多个领域。了解强化学习可以帮助读者更好地理解和应用机器学习和人工智能技术。此外，该书籍还提供了一个基于Python的代码库，供读者实践和学习强化学习算法和技术。 “Reinforcement Learning: An Introduction”是强化学习领域的一本经典书籍，对于机器学习和人工智能领域的研究人员和实践者来说非常有价值。

资源推荐

资源详情

资源评论

Reinforcement Learning:

An Introduction

Second edition, in progress

****Complete Draft****

November 5, 2017

Richard S. Sutton and Andrew G. Barto

 2014, 2015, 2016, 2017

The text is now complete, except possibly for one more case study to be added to Chapter 16. The

references still need to be thoroughly checked, and an index still needs to be added. Please send any

errors to rich@richsutton.com and barto@cs.umass.edu. We are also very interested in correcting any

important omissions in the “Bibliographical and Historical Remarks” at the end of each chapter. If

you think of something that really should have been cited, please let us know and we can try to get it

corrected before the ﬁnal version is printed.

A Bradford Book

The MIT Press

Cambridge, Massachusetts

London, England

www.bigquant.com 人工智能量化平台

Contents

Preface to the First Edition ix

Preface to the Second Edition xi

Summary of Notation xv

1 Introduction 1

1.1 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Elements of Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.4 Limitations and Scope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.5 An Extended Example: Tic-Tac-Toe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.7 Early History of Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

I Tabular Solution Methods 18

2 Multi-armed Bandits 19

2.1 A k-armed Bandit Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2 Action-value Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3 The 10-armed Testbed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.4 Incremental Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.5 Tracking a Nonstationary Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.6 Optimistic Initial Values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.7 Upper-Conﬁdence-Bound Action Selection . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.8 Gradient Bandit Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.9 Associative Search (Contextual Bandits) . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.10 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3 Finite Markov Decision Processes 37

3.1 The Agent–Environment Interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.2 Goals and Rewards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

iii

www.bigquant.com 人工智能量化平台

iv CONTENTS

3.3 Returns and Episodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.4 Uniﬁed Notation for Episodic and Continuing Tasks . . . . . . . . . . . . . . . . . . . . 45

3.5 Policies and Value Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.6 Optimal Policies and Optimal Value Functions . . . . . . . . . . . . . . . . . . . . . . . 50

3.7 Optimality and Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4 Dynamic Programming 59

4.1 Policy Evaluation (Prediction) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.2 Policy Improvement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.3 Policy Iteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.4 Value Iteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.5 Asynchronous Dynamic Programming . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4.6 Generalized Policy Iteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.7 Eﬃciency of Dynamic Programming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5 Monte Carlo Methods 75

5.1 Monte Carlo Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.2 Monte Carlo Estimation of Action Values . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.3 Monte Carlo Control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5.4 Monte Carlo Control without Exploring Starts . . . . . . . . . . . . . . . . . . . . . . . 82

5.5 Oﬀ-policy Prediction via Importance Sampling . . . . . . . . . . . . . . . . . . . . . . . 84

5.6 Incremental Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.7 Oﬀ-policy Monte Carlo Control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.8 *Discounting-aware Importance Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . 92

5.9 *Per-reward Importance Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5.10 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

6 Temporal-Diﬀerence Learning 97

6.1 TD Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

6.2 Advantages of TD Prediction Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

6.3 Optimality of TD(0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

6.4 Sarsa: On-policy TD Control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

6.5 Q-learning: Oﬀ-policy TD Control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

6.6 Expected Sarsa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

6.7 Maximization Bias and Double Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

6.8 Games, Afterstates, and Other Special Cases . . . . . . . . . . . . . . . . . . . . . . . . 112

6.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

7 n-step Bootstrapping 115

7.1 n-step TD Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

www.bigquant.com 人工智能量化平台

CONTENTS v

7.2 n-step Sarsa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

7.3 n-step Oﬀ-policy Learning by Importance Sampling . . . . . . . . . . . . . . . . . . . . 121

7.4 *Per-reward Oﬀ-policy Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

7.5 Oﬀ-policy Learning Without Importance Sampling:

The n-step Tree Backup Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

7.6 *A Unifying Algorithm: n-step Q(σ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

7.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

8 Planning and Learning with Tabular Methods 131

8.1 Models and Planning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

8.2 Dyna: Integrating Planning, Acting, and Learning . . . . . . . . . . . . . . . . . . . . . 133

8.3 When the Model Is Wrong . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

8.4 Prioritized Sweeping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

8.5 Expected vs. Sample Updates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

8.6 Trajectory Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

8.7 Real-time Dynamic Programming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

8.8 Planning at Decision Time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

8.9 Heuristic Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

8.10 Rollout Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

8.11 Monte Carlo Tree Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

8.12 Summary of the Chapter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

8.13 Summary of Part I: Dimensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

II Approximate Solution Methods 160

9 On-policy Prediction with Approximation 161

9.1 Value-function Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

9.2 The Prediction Objective (VE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

9.3 Stochastic-gradient and Semi-gradient Methods . . . . . . . . . . . . . . . . . . . . . . . 164

9.4 Linear Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

9.5 Feature Construction for Linear Methods . . . . . . . . . . . . . . . . . . . . . . . . . . 171

9.5.1 Polynomials . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

9.5.2 Fourier Basis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

9.5.3 Coarse Coding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

9.5.4 Tile Coding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

9.5.5 Radial Basis Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

9.6 Nonlinear Function Approximation: Artiﬁcial Neural Networks . . . . . . . . . . . . . . 182

9.7 Least-Squares TD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

9.8 Memory-based Function Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

9.9 Kernel-based Function Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

9.10 Looking Deeper at On-policy Learning: Interest and Emphasis . . . . . . . . . . . . . . 190

www.bigquant.com 人工智能量化平台

剩余444页未读，继续阅读

评论收藏

内容反馈

承让@

粉丝: 8
资源: 380

Reinforcement Learning_An Introduction（英文优秀专业书籍推荐）.pdf

最新资源

Reinforcement Learning_An Introduction（英文优秀专业书籍推荐）.pdf

Reinforcement Learning_An Introduction多版本合集

Reinforcement Learning An Introduction.pdf

Reinforcement Learning：An Introduction PDF文档+源代码

Reinforcement Learning：An Introduction.pdf

Reinforcement learning an introduction中文pdf

Reinforcement Learning An Introduction(2nd)2018.pdf

Reinforcement_learning_An_introduction 第二版

Reinforcement Learning - An Introduction 2nd (final draft Nov 5 2017)

增强学习导论代码Reinforcement Learning - An Introduction(Second edition, Draft)

An Introduction to Deep Reinforcement Learning.pdf

Multi-agent reinforcement learning_An overview

Reinforcement Learning: An Introduction 自学代码（第二章）

强化学习导论中文版 增强学习导论中文版 Reinforcement learning an introduction 中文版.

Reinforcement Learning - An Introduction

Reinforcement Learning an Introduction 第二版有正事封面版

Reinforcement Learning: An Introduction 2ed

增强学习导论（Reinforcement Learning An Introduction_Sutton）

更多目录以及详细说明（年份、来源、截图等）

相关实用应用程序（Windows可用）

李飞飞自传 我看见的世界 The World I see

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

Visio2013 安装包及破解方法

自动驾驶横纵向控制，纵向采用pid控制，横向采用mpc控制，根据的是车辆二自由度车辆动力学模型，得到各矩阵之后在S函数里面进行编写，纵向参考百度Apollo纵向双环PID控制算法，横向参考百度Apol

三相并联型有源电力滤波器APF仿真（电压外环电流内环均为PI控制），id-iq谐波检测方法，SVPWM调制方法

eetop.cn-07-1射频电路设计理论与应用-王子宇 -课后答案1-10章

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

最新资源

强化学习导论中文版增强学习导论中文版 Reinforcement learning an introduction 中文版.

李飞飞自传我看见的世界 The World I see