【免费】15、蒙特卡洛预测1_备件需求预测蒙特卡洛资源-CSDN文库

需积分: 0 184 浏览量 2022-08-03 22:52:38 上传评论收藏 626KB PDF 举报

资源推荐

资源详情

资源评论

强化学习基础篇（十五）蒙特卡洛预测

1、 Model-free方法

通过贝尔曼方程求解最优策略有3种基本方法：动态规划法、蒙特卡洛法和时间差分法。前面我们介

绍了如何利用动态规划法去求解环境知识完备（即马尔可夫决策过程已知）的强化学习任务。简而言

之，首先通过策略评估计算给定策略的优劣程度，然后采用策略迭代算法获得基于策略的最优价值函

数，并根据最优价值函数确定最优策略；出于效率的考虑，也可以采用值迭代算法来获得

最优价值函数和最优策略。

在实际任务中，环境知识完备性这一先决条件较难满足，也就意味着大量的强化学习任务难以直接采用

动态规划法进行求解。对于环境知识不完备的MDP，即转移矩阵以及奖励未知的研究领域称为无模

型（Model-Free）方法。Model-free方法的基本方法就是使用蒙特卡洛法（Monte Carlo，MC）和时

间差分法（Temporal-difference，TD）。

此外Model-free方法可以分为两个大方面：预测（prediction）与控制（Control）

Model-free预测是评估一个未知MDP的值函数。

Model-free控制是优化一个未知MDP的值函数。

本文会主要介绍蒙特卡洛预测方法。

2、什么是蒙特卡洛方法

“蒙特卡洛”这一名字来源于摩纳哥的城市蒙特卡洛（MonteCarlo）。该方法由著名的美国计算机科学家

冯·诺伊曼和S.M.乌拉姆在20世纪40年代第二次世界大战中研制原子弹（"曼哈顿计划”）时首先提出。

蒙特卡洛法是一种基于采样的算法名称，依靠重复随机抽样来获得数值结果的计算方法，其核心理念是

使用随机性来解决原则上为确定性的问题。通俗而言，蒙特卡洛法采样越多，结果就越近似最优解，即

通过多次采样逼近最优解。

举个简单的例子。去果园摘苹果，规则是每次只能摘一个苹果，并且手中只能留下一个苹果，最后走出

果园的时候也只能带走一个苹果，目标是使得最后拿出果园的苹果最大。可以达成这样一个共识：进入

果园后每次摘一个大苹果，看到比该苹果更大的则替换原来的苹果。基于上述共识，可以保证每次摘到

的苹果都至少不比上一次摘到的苹果小。如果摘苹果的次数越多，挑出来的苹果就越大，但无法确保最

后摘到的苹果一定是最大的，除非把整个果园的苹果都摘一遍。即尽量找较大的，但不保证是最大的。

采样次数越多，结果就越近似最优解，这种方法就属于蒙特卡洛法。\

蒙特卡洛法能够处理免模型的任务，究其原因是无须依赖环境的完备知识（Environment backup），

只需收集从环境中进行采样得到的经验轨迹（Experience episode），基于经验轨迹集数据的计算，可

求解最优策略。

蒙特卡洛在强化学习中应用的核心主要包含以下几点：

MC方法是直接从经验轨迹当中直接进行学习。

MC方法是一种model-free方法，即没有MDP的转移概率以及奖励的先验知识。

MC方法从完整的经验轨迹中学习，不使用bootstrapping方法。

MC方法简单得使用这个思想：价值=平均回报。

缺点在于只能应用于一定有终结点的按幕分的MDP过程。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

内容反馈

无能为力就要努力

粉丝: 16
资源: 332

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip