没有合适的资源?快使用搜索试试~ 我知道了~
引入参数后的状态价值更新方法可以更改为:7. 蒙特卡洛预测算法伪代码7.1 首次访问型MC预测算法,用于估计7.2 蒙特卡洛ES(试探性出发),用于估计7.3
资源推荐
资源详情
资源评论
强化学习基础篇(十五)蒙特卡洛预测
1、 Model-free方法
通过贝尔曼方程求解最优策略 有3种基本方法:动态规划法、蒙特卡洛法和时间差分法。前面我们介
绍了如何利用动态规划法去求解环境知识完备(即马尔可夫决策过程已知)的强化学习任务。简而言
之,首先通过策略评估计算给定策略 的优劣程度,然后采用策略迭代算法获得基于策略 的最优价值函
数 ,并根据最优价值函数 确定最优策略 ;出于效率的考虑,也可以采用值迭代算法来获得
最优价值函数 和最优策略 。
在实际任务中,环境知识完备性这一先决条件较难满足,也就意味着大量的强化学习任务难以直接采用
动态规划法进行求解。对于环境知识不完备的MDP,即转移矩阵 以及奖励 未知的研究领域称为无模
型(Model-Free)方法。Model-free方法的基本方法就是使用蒙特卡洛法(Monte Carlo,MC)和时
间差分法(Temporal-difference,TD)。
此外Model-free方法可以分为两个大方面:预测(prediction)与控制(Control)
Model-free预测是评估一个未知MDP的值函数。
Model-free控制是优化一个未知MDP的值函数。
本文会主要介绍蒙特卡洛预测方法。
2、什么是蒙特卡洛方法
“蒙特卡洛”这一名字来源于摩纳哥的城市蒙特卡洛(MonteCarlo)。该方法由著名的美国计算机科学家
冯·诺伊曼和S.M.乌拉姆在20世纪40年代第二次世界大战中研制原子弹("曼哈顿计划”)时首先提出。
蒙特卡洛法是一种基于采样的算法名称,依靠重复随机抽样来获得数值结果的计算方法,其核心理念是
使用随机性来解决原则上为确定性的问题。通俗而言,蒙特卡洛法采样越多,结果就越近似最优解,即
通过多次采样逼近最优解。
举个简单的例子。去果园摘苹果,规则是每次只能摘一个苹果,并且手中只能留下一个苹果,最后走出
果园的时候也只能带走一个苹果,目标是使得最后拿出果园的苹果最大。可以达成这样一个共识:进入
果园后每次摘一个大苹果,看到比该苹果更大的则替换原来的苹果。基于上述共识,可以保证每次摘到
的苹果都至少不比上一次摘到的苹果小。如果摘苹果的次数越多,挑出来的苹果就越大,但无法确保最
后摘到的苹果一定是最大的,除非把整个果园的苹果都摘一遍。即尽量找较大的,但不保证是最大的。
采样次数越多,结果就越近似最优解,这种方法就属于蒙特卡洛法。\
蒙特卡洛法能够处理免模型的任务,究其原因是无须依赖环境的完备知识(Environment backup),
只需收集从环境中进行采样得到的经验轨迹(Experience episode),基于经验轨迹集数据的计算,可
求解最优策略。
蒙特卡洛在强化学习中应用的核心主要包含以下几点:
MC方法是直接从经验轨迹当中直接进行学习。
MC方法是一种model-free方法,即没有MDP的转移概率 以及奖励 的先验知识。
MC方法从完整的经验轨迹中学习,不使用bootstrapping方法。
MC方法简单得使用这个思想:价值=平均回报。
缺点在于只能应用于一定有终结点的按幕分的MDP过程。
资源评论
无能为力就要努力
- 粉丝: 16
- 资源: 332
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功