泻药。笔者最近读完了Taweh的强化学习实战教材《Python强化学习实战》,受到颇多启发,刚
好看到这个老问题(现在是2022.8.26),于是在这里写出很多新的思考。文章里面引用了一些书
本里面的精华quotes。
能否介绍一下强化学习(Reinforcement Learning),以及与监督学习的不同?
先上结论。
强化学习是机器学习在最优控制理论的应用,这意味着它不用机器学习也能做。传统的强化学习可
以用PPO等算法,后来发现用Q-learning比较顺手,掀起了一波学Q表的风潮。再后面深度学习出
来,用深度学习学Q表开始屠榜。很多回答都说强化学习和监督学习没啥关系,其实这俩在目前的
学界结合很紧密,就是因为DQN。DQN本质就是一个监督学习,只不过用了些手段,把强化学习
建模成一个拟合问题。
强化学习两个最基本的要素就是状态等观测值和奖励函数。监督学习两个最基本的要素就是训练数
据和标签。这俩完全就是无缝链接,因为观测值可以作为训练数据,奖励函数可以作为损失函数,
标签也有了。这样就可以在agent在环境里跑的时候不断获得训练数据和标签,本质上就是让
agent的行为逐渐拟合奖励函数。
如果你对以上解释有疑问,可以接着读。
文章资源
收起