# PyTorch implementation of TRPO
Try my implementation of [PPO](github.com/ikostrikov/pytorch-a2c-ppo-acktr/) (aka newer better variant of TRPO), unless you need to you TRPO for some specific reasons.
##
This is a PyTorch implementation of ["Trust Region Policy Optimization (TRPO)"](https://arxiv.org/abs/1502.05477).
This is code mostly ported from [original implementation by John Schulman](https://github.com/joschu/modular_rl). In contrast to [another implementation of TRPO in PyTorch](https://github.com/mjacar/pytorch-trpo), this implementation uses exact Hessian-vector product instead of finite differences approximation.
## Contributions
Contributions are very welcome. If you know how to make this code better, don't hesitate to send a pull request.
## Usage
```
python main.py --env-name "Reacher-v1"
```
## Recommended hyper parameters
InvertedPendulum-v1: 5000
Reacher-v1, InvertedDoublePendulum-v1: 15000
HalfCheetah-v1, Hopper-v1, Swimmer-v1, Walker2d-v1: 25000
Ant-v1, Humanoid-v1: 50000
## Results
More or less similar to the original code. Coming soon.
## Todo
- [ ] Plots.
- [ ] Collect data in multiple threads.
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
在强化学习(RL)领域,如何稳定地优化策略是一个核心挑战。2015 年,由 John Schulman 等人提出的信赖域策略优化(Trust Region Policy Optimization, TRPO)算法为这一问题提供了优雅的解决方案。TRPO 通过限制策略更新的幅度,避免了策略更新过大导致的不稳定问题,是强化学习中经典的策略优化方法之一。
资源推荐
资源详情
资源评论
收起资源包目录
TRPO-Pytorch.zip (9个子文件)
TRPO-Pytorch
utils.py 1KB
LICENSE.md 1KB
main.py 6KB
trpo.py 3KB
models.py 1KB
running_state.py 2KB
replay_memory.py 603B
conjugate_gradients.py 774B
README.md 1KB
共 9 条
- 1
资源评论
不去幼儿园
- 粉丝: 1w+
- 资源: 40
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Screenshot_20241123_212743_com_tencent_mm_LauncherUI.jpg
- 修帝全伪实体v8(2).zip
- 用于在 Amazon SageMaker 上训练和部署机器学习模型的库.zip
- 用于与 Twilio API 通信并生成 TwiML 的 Python 模块 .zip
- Logisim16位ALU设计
- ENVI水体提取初编辑
- 视频、音频转换为文本,可以将视频转换为文本,支持中文
- Adobe 2024 With Account Patcher v2.41.dmg
- 用于与 Meshtastic 设备通信的 Python CLI 和 API.zip
- life-expectancy-table.json
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功