没有合适的资源?快使用搜索试试~ 我知道了~
PyTorch-A2C:使用Pytorch的Advantage Actor Critic的一般实现
共19个文件
py:12个
md:2个
png:2个
需积分: 19 12 下载量 101 浏览量
2021-05-28
04:21:42
上传
评论
收藏 107KB ZIP 举报
温馨提示
A2C 描述 这是使用OpenAI体育馆环境以PyTorch编写的的实现。 此实现包括卷积模型,原始A3C模型,完全连接的模型(基于Karpathy的Blog)和基于GRU的递归模型的选项。 BPTT 循环训练可以选择使用时间反向传播(BPTT),它可以在一系列状态而不是当前状态上建立梯度依存关系。 初步结果表明,使用BPTT不会提高训练效果。 有关两种培训方法的比较,请参见。 该算法在Pong-v0上进行了训练。 奖励图是在培训期间首次展示时收集的奖励的移动平均值。 对于Pong而言,奖励指标是每个游戏结束时收集的奖励的运行平均值,而不是完整的21分比赛。 这使最低奖励为-1,最大奖励为+1。 移动平均因子设置为0.99。 在Pong-v0上的GRU模型训练过程中,经过4000万个时间步的平均奖励图。 在使用反向传播穿越时间训练的Pong-v0上训练GRU模型的过程中,在400
资源推荐
资源详情
资源评论
收起资源包目录
PyTorch-A2C-master.zip (19个子文件)
PyTorch-A2C-master
figures
pong_AvgRew.png 44KB
pongbptt_AvgRew.png 42KB
test_env.py 2KB
requirements.txt 245B
a2c
preprocessing.py 936B
utils.py 2KB
runner.py 13KB
__init__.py 78B
models.py 27KB
training.py 8KB
updater.py 9KB
logger.py 1KB
setup.py 1KB
README.md 8KB
training_scripts
watch_model.py 2KB
hyperparams.json 755B
main.py 238B
README.md 3KB
.gitignore 2KB
共 19 条
- 1
资源评论
syviahk
- 粉丝: 24
- 资源: 4783
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功