没有合适的资源?快使用搜索试试~ 我知道了~
离散控制Matlab代码-markov-decision-process:值迭代算法介绍
共17个文件
jpg:6个
m:6个
png:3个
需积分: 50 9 下载量 86 浏览量
2021-05-23
08:02:07
上传
评论
收藏 263KB ZIP 举报
温馨提示
离散控制Matlab代码马可夫决策过程 马尔可夫决策过程(MDP)是离散的时间随机控制过程。 它提供了一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP对于研究通过动态编程和强化学习解决的优化问题非常有用。 MDP至少早在1950年代就已为人所知;罗纳德·霍华德(Ronald Howard)于1960年出版的《动态编程和马尔可夫过程》是马尔可夫决策过程研究的核心内容,它们被用于许多领域,包括机器人技术,自动控制,经济学和制造业。 MDP的名称来自俄罗斯数学家Andrey Markov。 。 算法: 值迭代(Bellman 1957):也称为反向归纳,不使用π函数; 而是在需要时在V(s)内计算π(s)的值。 将π(s)的计算代入V(s)的计算可得出组合步骤。 在下面查看有关如何计算效用的示例(有关更多详细信息,请参见-中的代码)算法: 策略迭代:在策略迭代中(霍华德1960),第一步执行一次,然后重复第二步直到收敛。 然后,再次执行第一步,依此类推。 对于大量可能的状态,策略迭代通常比值迭代慢。 算法 : 注意:在此代码中,我们将不处理该算法(我们将在稍后发
资源推荐
资源详情
资源评论
收起资源包目录
markov-decision-process-master.zip (17个子文件)
markov-decision-process-master
ValueIteration.m 5KB
README.md 5KB
DisplayUtilities.m 593B
NeighboursSearch.m 1KB
MDP.m 4KB
DisplayPolitique.m 913B
DisplayReward.m 481B
files.
ExampleUtilities.jpg 48KB
InitialRewards.jpg 50KB
valueiter.png 4KB
valueiteralgorithm.png 38KB
System.jpg 17KB
OptimalPolitiquee.jpg 43KB
politiqueiteralgorithm.png 54KB
UtilitiesValues.jpg 50KB
data 4B
Example.jpg 12KB
共 17 条
- 1
资源评论
weixin_38712578
- 粉丝: 4
- 资源: 931
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功