强化学习一：基础部分-知乎.pdf资源-CSDN文库

需积分: 1 45 浏览量 2023-05-18 11:53:24 上传评论收藏 920KB PDF 举报

资源推荐

资源详情

资源评论

4/23/23, 1:52 PM

强化学习一：基础部分 - 知乎

https://zhuanlan.zhihu.com/p/555303537

1/6

强化学习一：基础部分

已关注

11 人赞同了该文章

UIUC MSCS DL/Fin/MLSys

HeptaAI

泻药。笔者最近读完了Taweh的强化学习实战教材《Python强化学习实战》，受到颇多启发，刚

好看到这个老问题（现在是2022.8.26），于是在这里写出很多新的思考。文章里面引用了一些书

本里面的精华quotes。

能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？

先上结论。

强化学习是机器学习在最优控制理论的应用，这意味着它不用机器学习也能做。传统的强化学习可

以用PPO等算法，后来发现用Q-learning比较顺手，掀起了一波学Q表的风潮。再后面深度学习出

来，用深度学习学Q表开始屠榜。很多回答都说强化学习和监督学习没啥关系，其实这俩在目前的

学界结合很紧密，就是因为DQN。DQN本质就是一个监督学习，只不过用了些手段，把强化学习

建模成一个拟合问题。

强化学习两个最基本的要素就是状态等观测值和奖励函数。监督学习两个最基本的要素就是训练数

据和标签。这俩完全就是无缝链接，因为观测值可以作为训练数据，奖励函数可以作为损失函数，

标签也有了。这样就可以在agent在环境里跑的时候不断获得训练数据和标签，本质上就是让

agent的行为逐渐拟合奖励函数。

如果你对以上解释有疑问，可以接着读。

文章资源

收起

源

法

略的学习

略优化 PPO

学习

学习

赞同 11

添加评论喜欢收藏申请转载

分享

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余5页未读，立即下载

内容反馈

Python徐师兄

粉丝: 559
资源: 1774

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip