A Pragmatic Look at Deep Imitation Learning
===========================================
[![MIT License](https://img.shields.io/badge/license-MIT-blue.svg)](LICENSE.md)
Imitation learning algorithms (with PPO [[1]](#references)):
- ~~ABC [[2]](#references)~~
- AIRL [[3]](#references)
- BC [[4]](#references)
- DRIL [[5]](#references)
- FAIRL [[6]](#references)
- GAIL [[7]](#references)
- GMMIL [[8]](#references)
- nn-PUGAIL [[9]](#references)
- ~~PWIL [[10]](#references)~~
- RED [[11]](#references)
```
python main.py --imitation [AIRL|BC|DRIL|FAIRL|GAIL|GMMIL|PUGAIL|RED]
```
Options include:
- State-only imitation learning: `--state-only`
- Absorbing state indicator [[12]](#references): `--absorbing`
- R1 gradient regularisation [[13]](#references): `--r1-reg-coeff 1` (default)
Results
-------
**PPO**
Train | Test
:----:|:---:
![ppo_train_returns](figures/ppo_train_returns.png) | ![ppo_test_returns](figures/ppo_test_returns.png)
**AIRL**
Train | Test
:----:|:---:
![airl_train_returns](figures/airl_train_returns.png) | ![airl_test_returns](figures/airl_test_returns.png)
**BC**
Train | Test
:----:|:---:
![bc_test_returns](figures/bc_test_returns.png) | ![bc_test_returns](figures/bc_test_returns.png)
**DRIL**
Train | Test
:----:|:---:
![dril_train_returns](figures/dril_train_returns.png) | ![dril_test_returns](figures/dril_test_returns.png)
**FAIRL**
Train | Test
:----:|:---:
![fairl_train_returns](figures/fairl_train_returns.png) | ![fairl_test_returns](figures/fairl_test_returns.png)
**GAIL**
Train | Test
:----:|:---:
![gail_train_returns](figures/gail_train_returns.png) | ![gail_test_returns](figures/gail_test_returns.png)
**GMMIL**
Train | Test
:----:|:---:
![gmmil_train_returns](figures/gmmil_train_returns.png) | ![gmmil_test_returns](figures/gmmil_test_returns.png)
**nn-PUGAIL**
Train | Test
:----:|:---:
![pugail_train_returns](figures/pugail_train_returns.png) | ![pugail_test_returns](figures/pugail_test_returns.png)
**RED**
Train | Test
:----:|:---:
![red_train_returns](figures/red_train_returns.png) | ![red_test_returns](figures/red_test_returns.png)
Acknowledgements
----------------
- [@ikostrikov](https://github.com/ikostrikov) for [https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail](https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail)
Citation
--------
If you find this work useful and would like to cite it, the following would be appropriate:
```
@misc{arulkumaran2020pragmatic,
author = {Arulkumaran, Kai},
title = {A Pragmatic Look at Deep Imitation Learning},
url = {https://github.com/Kaixhin/imitation-learning},
year = {2020}
}
```
References
----------
[1] [Proximal Policy Optimization Algorithms](https://arxiv.org/abs/1707.06347)
[2] [Adversarial Behavioral Cloning](https://www.tandfonline.com/doi/abs/10.1080/01691864.2020.1729237)
[3] [Learning Robust Rewards with Adversarial Inverse Reinforcement Learning](https://arxiv.org/abs/1710.11248)
[4] [Efficient Training of Artificial Neural Networks for Autonomous Navigation](https://www.mitpressjournals.org/doi/abs/10.1162/neco.1991.3.1.88?journalCode=neco)
[5] [Disagreement-Regularized Imitation Learning](https://openreview.net/forum?id=rkgbYyHtwB)
[6] [A Divergence Minimization Perspective on Imitation Learning Methods](https://arxiv.org/abs/1911.02256)
[7] [Generative Adversarial Imitation Learning](https://arxiv.org/abs/1606.03476)
[8] [Imitation Learning via Kernel Mean Embedding](https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/viewPaper/16807)
[9] [Positive-Unlabeled Reward Learning](https://arxiv.org/abs/1911.00459)
[10] [Primal Wasserstein Imitation Learning](https://arxiv.org/abs/2006.04678)
[11] [Random Expert Distillation: Imitation Learning via Expert Policy Support Estimation](https://arxiv.org/abs/1905.06750)
[12] [Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning](https://arxiv.org/abs/1809.02925)
[13] [Which Training Methods for GANs do actually Converge?](https://arxiv.org/abs/1801.04406)
没有合适的资源?快使用搜索试试~ 我知道了~
imitation-learning:模仿学习算法
共27个文件
png:17个
py:6个
md:2个
需积分: 22 12 下载量 96 浏览量
2021-04-23
06:40:01
上传
评论 2
收藏 999KB ZIP 举报
温馨提示
深度模仿学习的语用观察 模仿学习算法(使用PPO ): 美国广播公司 AIRL 公元前 钻头 童话 盖尔 GMMIL nn-PUGAIL PWIL 红色 python main.py --imitation [AIRL|BC|DRIL|FAIRL|GAIL|GMMIL|PUGAIL|RED] 选项包括: 仅状态模仿学习: --state-only 吸收状态指示器 --absorbing R1梯度正则化 :-- --r1-reg-coeff 1 (默认值) 结果 PPO 火车 测试 航空 火车 测试 公元前 火车 测试 钻头 火车 测试 公平 火车 测试 盖尔 火车 测试 吉米 火车 测试 nn-PUGAIL 火车 测试 红色的 火车 测试 致谢 @ikostrikov ( https://github.com/ikostrikov
资源推荐
资源详情
资源评论
收起资源包目录
imitation-learning-master.zip (27个子文件)
imitation-learning-master
.gitignore 2KB
training.py 8KB
LICENSE.md 1KB
expert_trajectories.pth 788KB
models.py 8KB
utils.py 851B
README.md 4KB
figures
bc_test_returns.png 12KB
gail_test_returns.png 30KB
dril_test_returns.png 24KB
red_train_returns.png 58KB
ppo_train_returns.png 58KB
fairl_train_returns.png 54KB
red_test_returns.png 25KB
pugail_test_returns.png 29KB
ppo_test_returns.png 28KB
fairl_test_returns.png 30KB
gail_train_returns.png 37KB
dril_train_returns.png 56KB
airl_test_returns.png 33KB
gmmil_test_returns.png 30KB
airl_train_returns.png 47KB
gmmil_train_returns.png 52KB
pugail_train_returns.png 37KB
main.py 11KB
evaluation.py 1KB
environments.py 896B
共 27 条
- 1
资源评论
吃肥皂吐泡沫
- 粉丝: 28
- 资源: 4587
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功