DDPG连续控制

共65个文件

py：49个

md：3个

json：3个

Python

需积分: 38 2 下载量 193 浏览量 2021-02-18 18:53:10 上传评论 3 收藏 1.27MB ZIP 举报

温馨提示

Unity带有RL的Reacher环境解决方案介绍该项目是用于解决Unity v0.4环境的深度确定性策略梯度强化学习算法的实现。环境细节在这种环境下，双臂可以移动到目标位置。对于代理人的手在目标位置中的每一步，将提供+0.1的奖励。因此，代理的目标是将其在目标位置的位置保持尽可能多的时间步长。观察空间由33个变量组成，分别对应于手臂的位置，旋转，速度和角速度。每个动作是一个带有四个数字的向量，对应于适用于两个关节的扭矩。动作向量中的每个条目都应为-1和1之间的数字。该环境由20个相同的代理组成，每个代理都有自己的环境副本。要考虑解决此环境，特工必须获得+30的平均分数（连续100次以上以及所有特工均达到）。具体来说，在每个情节之后，我们将汇总每个代理商的奖励（不打折），以获得每个代理商的得分。这将产生20个（可能不同）的分数。然后，我们取这20个分

资源推荐

资源详情

资源评论