PG就是你所需要的!
这是有关从A2C到SAC的Policy Gradient算法的分步指南,包括使用演示来学习加速处理方法的演示,以使用稀疏奖励来处理实际应用。 每章都包含理论背景和面向对象的实现。 只需选择您感兴趣的任何主题,然后学习! 您甚至可以在智能手机上使用 Colab 立即执行它们。
如果您有任何改进的想法,请随时打开问题或拉取请求。 :)
如果您需要 DQN 系列教程,请参阅 。
内容
Advantage Actor-Critic (A2C) [ ] [ ]
近端策略优化算法(PPO)[ ] [ ]
深度确定性策略梯度 (DDPG) [ ] [ ]
Twin Delayed Deep Deterministic Policy Gradient Algorithm (TD3) [ ] [ ]
软演员评论家 (SAC) [ ] [ ]
演示中的