没有合适的资源?快使用搜索试试~ 我知道了~
handful-of-trials-pytorch:非官方的Pytorch代码,“使用概率动力学模型进行的几次尝试中的深度强化学...
需积分: 5 0 下载量 118 浏览量
2021-05-14
12:48:09
上传
评论
收藏 93KB ZIP 举报
温馨提示
此存储库包含在基于几次尝试中的提出的基于模型的出色强化学习算法的pytorch实现。 到目前为止,该存储库仅支持性能最高的变体:用于学习的动力学模型的概率集合,用于运动优化的TSinf轨迹采样和交叉熵方法。 该代码的结构具有与原始TF实现相同的抽象级别,但TF动态模型已被Pytorch动力学模型代替。 如果您看到改进回购协议的方法,我很乐意接受拉取请求:)。 表现 y轴表示到目前为止所看到的最大奖励,就像本文中所做的那样。 在代码中指定的种子上,我无法获得与HalfCheetah上的论文相同的结果。 我已经梳理了代码,但是找不到任何潜在的错误。 我怀疑性能较低是因为HC在目标函数表面具有欺骗性模式,因此性能差异很大。 为了获得1万5千集的回报,HC必须靠腿走路。 但是,另一种方式是HC翻转其背部并摆动其腿部。 对于某些初始种子,甚至SAC都停留在此模式下。 我没有时间进一
资源推荐
资源评论
资源评论
水瓶座的兔子
- 粉丝: 31
- 资源: 4468
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- JAVA的Springboot2.x快速开发框架后台管理平台源码数据库 MySQL源码类型 WebForm
- 数据科学、数据分析、人工智能必备知识汇总-分布分析-持续更新
- 基于灰度多属性决策的海洋塑料碎片污染程度评估与政策建议
- 2024认证杯B题代码及数据可视化
- 2024认证杯D题1-3问可运行代码
- 基于python2.7的一些渗透测试小工具.zip
- 手机年度报告-换机行为-购买行为分析
- 基于golang的渗透测试武器,将web打点部分与常规的漏扫部分进行整合与改进.zip
- 域渗透攻击技术、检测规则以及方便覆盖漏洞的虚拟机实验环境 - 攻击 Active Directory 的技巧和工具、威胁搜寻检测规则以及用于重现漏洞的实验室 .zip
- Python期末大作业-基于LSTM实现文本的情感分析与可视化项目源码(高分项目)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功