没有合适的资源?快使用搜索试试~ 我知道了~
CuriosityDriven-PPO:通过引导功能松散的好奇心驱动探索
共24个文件
py:20个
png:2个
gitignore:1个
需积分: 50 7 下载量 45 浏览量
2021-02-09
23:21:28
上传
评论
收藏 125KB ZIP 举报
温馨提示
通过引导功能来放松好奇心驱动的探索 七月7,2018 描述 此回购是对OpenAI的论文《一个松散的重述。 该算法训练一种策略,使游戏完全摆脱内部预测错误产生的奖励。 该过程可以可视化为策略和试图预测环境未来状态的模型(称为前向动力学模型)之间的决斗。 该政策是通过培训的,除了将环境奖励替换为前向动力学模型的误差外。 更具体地说,用于PPO的奖励是前向动力学模型的预测的平方误差。 前向动力学模型的预测目标是环境中下一个状态的低维表示。 这称为内在奖励。 前向动力学模型越不准确,给定时间步长的奖励就越大。 这鼓励了政策寻求看不见的状态,并创建了一个强大的预测系统。 实施说明 此实现不包括Hindsight Experience Replay 此实现在PPO更新中使用广义优势估算(GAE)之前将固有奖励归一化。 这有助于防止由于值预测误差而造成的损失差异。 我不相信OpenAI版本可以做到
资源推荐
资源详情
资源评论
收起资源包目录
CuriosityDriven-PPO-master.zip (24个子文件)
CuriosityDriven-PPO-master
watch_model.py 2KB
figures
fwdonly_AvgRew.png 42KB
seprtembs_AvgRew.png 43KB
test_env.py 2KB
models
fc_model.py 3KB
__init__.py 297B
inv_dynamics.py 506B
gru_model.py 4KB
conv_model.py 5KB
a3c_model.py 6KB
rnnlocator.py 46KB
embedder.py 10KB
environments.py 6KB
hyperparams.py 10KB
preprocessing.py 2KB
utils.py 2KB
runner.py 10KB
main.py 272B
updater.py 31KB
README.md 11KB
logger.py 1KB
.gitignore 50B
curio_ppo.py 14KB
hypersearch.py 1KB
共 24 条
- 1
资源评论
weixin_42128015
- 粉丝: 20
- 资源: 4641
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功