Actor-Critic原理+PPO算法推导_Actor-Critic类算法框架图资源-CSDN文库

需积分: 50 144 浏览量 2022-01-20 16:50:45 上传评论 7 收藏 599KB PDF 举报

"Actor-Critic原理+PPO算法推导" Actor-Critic 原理是强化学习中的一种重要方法，主要用于解决 Sequential Decision Making 问题。该方法结合了 Actor 网络和 Critic 网络，Actor 网络负责选择动作，而 Critic 网络评估状态的价值。 Actor 网络是一个参数为θ的神经网络，将状态 state 作为输入，输出各个动作的概率，选择其中一个作为 action。Actor 网络的目标是使总奖励最大化。 Critic 网络评估状态的价值，输出状态的价值函数。Critic 网络的损失函数是时间差分（Temporal-difference，TD）方法计算的td_error的平方。 Actor-Critic 框架图中，Actor 网络和 Critic 网络相互作用，Actor 网络选择动作，Critic 网络评估状态的价值，反向传播更新网络参数。 Proximal Policy Optimization (PPO) 算法是基于 Actor-Critic 框架的强化学习算法，目标是使总奖励最大化。PPO 算法将 Actor 网络的损失函数定义为： 𝑎_𝑙𝑜𝑠𝑠 = − log(𝑎𝑐𝑡𝑖𝑜𝑛_𝑝𝑟𝑜𝑏) ∗ 𝑡𝑑_𝑒𝑟𝑟𝑜𝑟 在 PPO 算法中，我们需要计算总奖励的期望值 𝑅𝜃，定义为： 𝑅𝜃 = ∑ 𝑅(𝜏)𝑝𝜃(𝜏) = 𝐸𝜏~𝑝𝜃(𝜏)[𝑅(𝜏)] 计算 𝑅𝜃 的梯度 ∇𝑅𝜃，用于更新 Actor 网络的参数： ∇𝑅𝜃 = ∑ 𝑅(𝜏)∇𝑝𝜃(𝜏)𝜏= ∑ 𝑅(𝜏)𝑝𝜃(𝜏) ∇𝑝𝜃(𝜏)𝑝𝜃(𝜏)𝜏= ∑ 𝑅(𝜏)𝑝𝜃(𝜏)∇logpθ(𝜏) 在计算 𝑅𝜃 的梯度时，我们需要注意两个问题： 1. reward 可能总是正的，那么所有的动作出现的概率都会提升；如果某个 action 未被 sample 到，那么它出现的概率会下降。解决方法是添加一个基准值 𝑏，定义为 𝑏 = 𝐸[𝑅(𝜏)]。 2. 所有 action 共用一个 weight，但是每个动作对 reward 的 contribution 是不同的。解决方法是对每个 action 分配不同的权重，计算从这个 action 以后，所得到的总奖励。 PPO 算法的关键步骤是： 1. 收集 Trajectory 数据 2. 计算总奖励 𝑅𝜃 3. 计算梯度 ∇𝑅𝜃 4. 更新 Actor 网络的参数 PPO 算法可以有效地解决强化学习问题，具有高い sample 效率和稳定性。

资源详情

资源评论

资源推荐