chap-深度强化学习.pdf资源-CSDN文库

深度强化学习

5星 · 超过95%的资源需积分: 33 34 浏览量 2019-05-09 14:19:23 上传评论收藏 406KB PDF 举报

资源推荐

资源详情

资源评论

第 14 章深度强化学习

除了试图直接去建立一个可以模拟成人大脑的程序之外，

为什么不试图建立一个可以模拟小孩大脑的程序呢？如果它接

受适当的教育，就会获得成人的大脑。

— 阿兰 · 图灵

在之前的章节中，我们主要关注于监督学习，而监督学习一般需要一定数

量的带标签的数据。在很多的应用场景中，通过人工标注的方式来给数据打标

签的方式往往行不通。比如我们通过监督学习来训练一个模型可以来自动下围

棋，就需要将当前棋盘的状态作为输入数据，其对应的最佳落子位置（动作）作

为标签。训练一个好的模型就需要收集大量的不同棋盘状态以及对应动作。这

种做法实践起来比较困难，一是对于每一种棋盘状态，即使是专家也很难给出

“正确”的动作，二是获取大量数据的成本往往比较高。对于下棋这类任务，虽

然我们很难知道每一步的“正确”动作，但是其最后的结果（即赢输）却很容

易判断。因此，如果可以通过大量的模拟数据，通过最后的结果（奖励）来倒

推每一步棋的好坏，从而学习出“最佳”的下棋策略，这就是强化学习。

强化学习（Reinforcement Learning，RL），也叫增强学习，是指一类从（与

环境）交互中不断学习的问题以及解决这类问题的方法。强化学习问题可以描

述为一个智能体从与环境的交互中不断学习以完成特定目标（比如取得最大奖

励值）。和深度学习类似，强化学习中的关键问题也是贡献度分配问题 [Minsky,

1963]，每一个动作并不能直接得到监督信息，需要通过整个模型的最终监督信

息（奖励）得到，并且有一定的延时性。

贡献度分配问题即一个系统

中不同的组件（components）

对最终系统输出结果的贡献

或影响。

强化学习也是机器学习中的一个重要分支。强化学习和监督学习的不同在

于，强化学习问题不需要给出“正确”策略作为监督信息，只需要给出策略的

（延迟）回报，并通过调整策略来取得最大化的期望回报。

剩余27页未读，继续阅读

内容反馈

陈游泳

2023-07-26

这本《chap-深度强化学习.pdf》用清晰简明的表达，使得复杂的概念易于理解，对于初学者也很友好。
VashtaNerada

2023-07-26

这本《chap-深度强化学习.pdf》循序渐进地讲解了深度强化学习的基础知识，适合初学者入门。
daidaiyijiu

2023-07-26

这本《chap-深度强化学习.pdf》是非常值得一读的，详尽地介绍了深度强化学习的核心概念和应用案例。
书看不完了

2023-07-26

这本《chap-深度强化学习.pdf》讲解深度强化学习的角度独特，对于学习者来说十分实用。
学习呀三木

2023-07-26

这本《chap-深度强化学习.pdf》以通俗易懂的方式，给出了很多实践建议，对于想要实际运用深度强化学习的人来说非常实用。

白杨树~

粉丝: 51
资源: 21

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip