【免费】28、值函数近似法1_值函数近似资源-CSDN文库

需积分: 0 196 浏览量 2022-08-04 00:26:14 上传评论收藏 1.15MB PDF 举报

资源详情

资源评论

资源推荐

强化学习基础篇（二十八）值函数近似法

（Value Function Approximation）

在大规模的强化学习任务求解中，精确获得状态值或动作值较为困难。而值函数近似法通过寻找状态

值或动作值的近似替代函数或的方式来求解大规模强化学习任务，既避免了表格求解

法所需大规模存储空间的问题，又提升了求解效率，是实际求解任务中被泛采纳的一种算法。

1、大规模强化学习

强化学习是可以去解决很多非常大型的问题的，比如像Backgammon游戏中有着个状态，在围棋游

戏中有着个状态，此外一些连续状态空间的环境也有着无数的状态。

那么如何把model-free方法中的预测与控制的算法应用在这些大规模强化学习任务之中呢？

这就需要使用值函数近似法，在之前我们所介绍的算法都是基于表格查找，也就是每一个状态在

的表格中都有相应的条目索引，或者说每个state-action对在的表格中都有相应的条目索

引。

但是表格型的表述方法在大型的MDP问题中有着致命性的问题：

一是，存储这些大量的状态或者动作信息将会耗费海量的内存

二是，去单独学习每个状态的价值非常得慢。

所以，对于大型的MDP问题，我们只能使用函数去近似价值函数：

使用这种近似价值方法一方面可以将价值函数的近似从可见状态泛化到不可见状态，另一方面我们可以

使用MC或TD学习的方法更新参数。

2、函数近似的模式

价值函数的近似可以有三种主要的方式：

输入状态，输出价值函数

输入状态与动作，输出Q函数 .

输入状态，输出所有可能动作的Q函数

，

剩余11页未读，继续阅读

评论0

内容反馈

ai

粉丝: 62
资源: 315

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip