【免费】免模型学习预测1资源-CSDN文库

需积分: 0 140 浏览量 2022-08-03 15:57:32 上传评论收藏 2.56MB PDF 举报

【免模型学习预测1】是关于强化学习中的一种无模型方法的探讨，主要涉及动态规划、交互和预测问题。在动态规划法中，强化学习分为预测问题和控制问题，预测问题要求在给定的策略下估计状态的价值。然而，动态规划在处理复杂问题时计算量大，且依赖于环境的动态特性，这在实际应用中往往难以获取。因此，免模型的学习方法应运而生。免模型的强化学习问题主要针对那些无法事先得知环境状态转化概率的情况。在这种情况下，预测问题只需5个要素：状态集、动作集、即时奖励、衰减因子以及给定策略，而控制问题则需要额外的探索率来寻找最优策略。与基于模型的强化学习不同，免模型学习不再依赖模型状态转化概率矩阵，而是直接从与环境的交互中学习。本章节重点介绍了蒙特卡洛强化学习，这是一种无模型的学习方法，它不依赖于MDP的具体细节，而是通过完整Episode的学习来估计状态价值。Episode是指按照某一策略执行一系列动作直至环境终止的状态序列。蒙特卡洛方法的核心思想是通过对多个Episode的平均收获进行统计，来估计每个状态的价值。随着Episode数量的增加，估计值会逐渐逼近真实值。蒙特卡洛策略评估是蒙特卡洛强化学习的一部分，其目标是通过一系列完整Episode的经历，学习并得到给定策略的状态价值函数。在这一过程中，关键信息来自于这些Episode中的状态和收获，通过对这些数据的分析，可以逐步改进策略的评估，最终得到准确的状态价值函数。蒙特卡洛方法的特点包括其非模型依赖性和基于完整Episode的学习。这种方法的优势在于能够处理动态未知环境，但需要足够的Episode样本以获得准确的估计，而且必须等到Episode结束才能计算收获，这可能导致学习速度较慢。尽管如此，蒙特卡洛方法在许多实际场景中，如游戏策略、机器人控制等领域，都展现出强大的适应性和实用性。在后续章节中，将会介绍时序差分学习（Temporal Difference Learning）和λ时序差分学习，它们介于蒙特卡洛方法和动态规划之间，能够在不完整Episode的情况下进行学习，从而加速学习过程。总结来说，免模型学习预测1主要讨论了在无法获取环境模型的情况下，如何利用强化学习的蒙特卡洛方法解决预测问题，以及其特点和应用。这种学习策略是强化学习理论中的一个重要组成部分，为实际问题的解决提供了新的思路。

资源推荐

资源详情

资源评论

强化学习—免模型预测

作者：YJLAugus 博客： https://www.cnblogs.com/yjlaugus 项目地址： https://github.com/YJLAug

us/Reinforcement-Learning-Notes ，如果感觉对您有所帮助，烦请点个⭐Star。

前言

在第二章强化学习-动态规划-DP 中，我们讨论了用动态规划来求解强化学习预测问题和控制问题的方

法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时，回溯到该状态的所有可能的后续

状态。导致对于复杂问题计算量很大。同时很多时候，我们连环境的动态特性都无法知道，这时动态

规划法根本没法使用。这时候我们如何求解强化学习问题呢？

从本章开始将花连续两讲的时间讨论解决一个可以被认为是MDP、但却不掌握MDP具体细节的问题，也

就是讲述如何直接从Agent与环境的交互来得得到一个估计的最优价值函数和最优策略。这部分内容同

样分为两部分，第一部分也就是本章的内容，聚焦于策略评估，也就是预测，直白的说就是在给定的策

略同时不清楚MDP细节的情况下，估计Agent会得到怎样的最终奖励。下一讲将利用本章的主要观念来进

行控制进而找出最优策略，最大化Agent的奖励。

本章内容分为三个小部分，分别是蒙特卡洛强化学习、时序差分强化学习和介于两者之间的λ时序差分

强化学习。相信读者在阅读本讲内容后会对这三类学习算法有一定的理解。

其中在第三章蒙特卡洛（Markov Chain & Monte Carlo, MCMC）方法对蒙特卡洛方法进行了一个简单的

介绍，这样对于这一章节问题的解决会有很多帮助。

免模型的强化学习问题定义

在动态规划法中，强化学习的两个问题是这样定义的：

预测问题，即给定强化学习的6个要素：状态集 , 动作集 , 模型状态转化概率矩阵 , 即时奖励

，衰减因子 , 给定策略，求解该策略的状态价值函数。

控制问题，也就是求解最优的价值函数和策略。给定强化学习的5个要素：状态集 , 动作集 , 模型

状态转化概率矩阵 , 即时奖励，衰减因子 , 给定策略，求解最优的状态价值函数和最优策略

可见，模型状态转化概率矩阵始终是已知的，即MDP已知，对于这样的强化学习问题，我们一般称为

基于模型的强化学习问题。

不过有很多强化学习问题，我们没有办法事先得到模型状态转化概率矩阵，这时如果仍然需要我们求

解强化学习问题，那么这就是不基于模型的强化学习问题了——免模型的强化学习。它的两个问题一般

的定义是：　　　　

预测问题，即给定强化学习的5个要素：状态集 , 动作集即时奖励，衰减因子，给定策略，

求解该策略的状态价值函数

控制问题，也就是求解最优价值函数和策略。给定强化学习的5个要素：状态集 , 动作集 , 即时奖

励，衰减因子 , 探索率 , 求解最优的动作价值函数和最优策略　

本章节要讨论的蒙特卡洛方法就是上述免模型的强化学习问题。

蒙特卡洛强化学习 (Monte-Carlo Reinforcement Learning)

蒙特卡洛强化学习概念

蒙特卡洛强化学习：是在不清楚MDP状态转移及即时奖励的情况下，直接从经历完整的 Episode 来学习

状态价值，通常情况下某状态的价值等于在多个Episode中以该状态算得到的所有收获的平均。

Episode ：agent根据某个策略执行一系列action到结束就是一个episode。

注：收获不是针对Episode的，它存在于Episode内，针对于Episode中某一个状态。从这个状态开始经历

完Episode时得到的有衰减的即时奖励的总和。从一个Episode中，我们可以得到该Episode内所有状态的

收获。当一个状态在Episode内出现多次，该状态的收获有不同的计算方法，下文会讲到。

完整的Episode 指必须从某一个状态开始，Agent与Environment交互直到终止状态，环境给出终止状态

的即时收获为止。

蒙特卡洛强化学习特点

蒙特卡洛强化学习有如下特点：不基于模型本身，直接从经历过的Episode中学习，必须是完整的

Episode，使用的思想就是用平均收获值代替价值。理论上Episode越多，结果越准确。

蒙特卡罗法通过采样若干经历完整的

状

态

序

列

(episode) 来估计状态的真实价值。所谓的经历完整，就

是这个序列必须是达到终点的。比如下棋问题分出输赢，驾车问题成功到达终点或者失败。有了很多组

这样经历完整的状态序列，我们就可以来近似的估计状态价值，进而求解预测和控制问题了。

蒙特卡洛策略评估 (Monte-Carlo Policy Evaluation)

目标：在给定策略下，从一系列的完整Episode经历中学习,最后求得到该策略下的状态价值函数。

在解决问题过程中主要使用的信息是一系列完整Episode。其包含的信息有：状态的转移、使用的行为序

列、中间状态获得的即时奖励以及到达终止状态时获得的即时奖励。其特点是使用有限的、完整Episode

产生的这些经验性信息经验性地推导出每个状态的平均收获，以此来替代收获的期望，而后者就是状态

价值。通常需要掌握完整的MDP信息才能准确计算得到。

数学描述如下：

基于特定策略的一个Episode信息可以表示为如下的一个序列：



时刻，的收获：

其中，为终止时刻。

该策略下某一状态的价值：

注：表示的是时刻agent在状态获得的即时奖励，下文都使用这种下标来表示即时奖

励。更准确的表述为：个体在状态执行一个行为后离开该状态获得的即时奖励。

很多时候，即时奖励只出现在Episode结束状态时，但不能否认在中间状态也可能有即时奖励。公式里的

指的是任何状态得到的即时奖励，这一点尤其要注意。

在状态转移过程中，可能发生一个状态经过一定的转移后又一次或多次返回该状态，此时在一个Episode

里如何计算这个状态发生的次数和计算该Episode的收获呢？可以有如下两种方法：

首次访问蒙特卡洛策略评估

在给定一个策略，使用一系列完整Episode评估某一个状态s时，对于每一个Episode，仅当该状态第一次

出现在一个 episode中时：

状态出现的次数加1 ：

总的收获更新：

状态 s 的价值：

当时，

每次访问蒙特卡洛策略评估

在给定一个策略，使用一系列完整Episode评估某一个状态s时，对于每一个Episode，状态 s 每次出现在

一个epospde中时：

状态出现的次数加1 ：

总的收获更新：

状态 s 的价值：

当时，。计算的公式与首次访问蒙特卡洛策略评估的公式相同，但是具体的

意义却不同，下一以一个简单的例子进行说明。

二十一点二十一点又名黑杰克（Blackjack），是一种流行于赌场的游戏，其目标是使得你的扑克牌点数

之和不超过21的情况下越大越好。K、Q、J和10牌都算作10点（一般记作T，即ten之意）；A 牌（ace）

既可算作1点也可算作11点，由玩家自己决定（当玩家停牌时，点数一律视为最大而尽量不爆，如A+9为

20，A+4+8为13，A+3+A视为15）。游戏开始时，会给玩家和庄家各发两张牌。庄家的牌一张正面朝上，

一张背面朝上，玩家两张都是明牌（都正面朝上）如果玩家的两张牌分别是一张A，一张10点（可能是

10，J， Q，K），这种情况称为天和，玩家直接获胜。除非庄家也是天和，那就是平局。如果玩家不是

天和，那么他可以一张一张地继续要牌，直到他主动停止（停牌）或者牌的点数和超过21点（爆牌）。

如果玩家选择停牌，就轮到庄家行动。庄家根据一个固定的策略进行游戏：他一直要牌，直到点数等于

或超过17时停牌。如果庄家爆牌，那么玩家获胜，否则根据谁的点数更靠近21决定胜负或者平局。

根据以上游戏规则，我们得到如下信息：

剩余21页未读，继续阅读

评论收藏

内容反馈

陈后主

粉丝: 39
资源: 340

免模型学习预测1

预测模型 - 预测模型练手

基于极限学习机的网络安全态势预测模型 (2).pdf

无人驾驶车辆模型预测控制.pdf

车辆检测模型xml文件

读书笔记《无人驾驶车辆模型预测控制》- 龚建伟.zip

简介了预测模型及其相关概念，并且推荐了相关资源

数学模型 ---教材配套ppt课件

深度学习Tensorflow免费项目源码-Baseline模型

非常好的AI大模型源代码100%好用.rar

LSTM天气预测数据集

机器学习/工业制造 + ML/xgboost + 异烟酸在生成过程中的各个参数的优化来预测最终的收率

统计学习基础-数据挖掘、推理与预测.2004

基于粒子群算法优化卷积神经网络(PSO-CNN)的回归预测预测，多变量输入模型（Matlab完整源码)

基于YOLOv5的火焰和烟雾检测模型

神经模糊预测控制及其MATLAB实现_模糊预测控制_神经模糊_神经预测控制_神经模糊预测控制_模糊预测控制_源码

亚博K210模型训练部署

基于马尔科夫过程的Oracle性能预测模型.pdf

Azure机器学习模型搭建实验.doc

BP神经网络分类模型-二分类及多分类模型-分类预测-Matlab源代码-附带使用教程及注意事项

新安江模型程序.zip_rangef6w_wavey9g_新安江_新安江 模型 程序 武汉大学_新安江模型

YOLOv7预训练模型

模型思维-斯科特·佩奇.pdf,斯科特佩奇模型思维课,Lingo

中国人工智能系列白皮书-大模型技术-2023版 免费下载

【预测模型】基于emd-lstm实现风速数据预测matlab源码.zip

时序预测 - MATLAB实现LSTM时间序列未来多步预测（完整源码和数据）

matlab预测性维护,matlab预测性维护工具箱,matlab

RVC懒洋洋模型完整版

EFDC模型资料及应用软件.rar

最新资源

新安江模型程序.zip_rangef6w_wavey9g_新安江_新安江模型程序武汉大学_新安江模型

中国人工智能系列白皮书-大模型技术-2023版免费下载