## 介绍
该项目每个算法文件夹都可以单独运行并测试相应算法,Building-offline-data中使用SAC在线训练交互体,之后采用最终模型模拟交互构建离线数据集以供离线算法学习。下面是离线强化学习算法的简单介绍。
### 1、BCQ (Behavioral Cloning from Offline Data with Q-Value Correction)
BCQ是一种离线行为克隆算法,从离线数据中学习策略,并通过Q值校正来改进性能。
### 2、BEAR (Bootstrapping Error Accumulation Reduction)
BEAR是一种离线强化学习算法,通过利用离线数据进行训练,并使用自举方法来减少误差积累。
### 3、TD3-BC (Twin Delayed Deep Deterministic Policy Gradient with Behavior Cloning)
TD3-BC是一种基于行为克隆的双延迟深度确定性策略梯度算法,通过结合行为克隆和双延迟DDPG来提高算法性能。
### 4、CQL (Conservative Q-Learning)
CQL是一种离线Q学习算法,通过引入保守性目标来提高离线学习的稳定性和性能。
### 5、IQL (Implicit Quantile Networks for Distributional Reinforcement Learning)
IQL是一种基于分位函数的离线强化学习算法,通过学习动作价值的分布来提高性能。
### 6、AWAC (Actor-Critic with Adversarial Weight Perturbations)
AWAC是一种离线强化学习算法,结合了确定性策略梯度和最大熵强化学习的思想,并使用生成对抗网络来提高策略学习的效果。
### 7、BC (Behavioral Cloning)
BC是一种简单的离线行为克隆算法,通过直接复制专家策略来学习行为。
### 使用说明
- **python版本:**` 3.10.13`
- **依赖库:**[requirements.txt](./requirements.txt)
- **安装依赖库:**`pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/`
### 参考资料
1. [离线强化学习系列](https://www.zhihu.com/column/c_1487193754071617536)
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
pytorch实现的离线强化学习7种常见算法代码 (266个子文件)
awac_actor_100 12KB
awac_actor_150 12KB
awac_actor_200 12KB
awac_actor_50 12KB
awac_actor_optimizer_100 26KB
awac_actor_optimizer_150 26KB
awac_actor_optimizer_200 26KB
awac_actor_optimizer_50 26KB
awac_critic_100 24KB
awac_critic_150 24KB
awac_critic_200 24KB
awac_critic_50 24KB
awac_critic_optimizer_100 50KB
awac_critic_optimizer_150 50KB
awac_critic_optimizer_200 50KB
awac_critic_optimizer_50 50KB
awac_critic_target_100 24KB
awac_critic_target_150 24KB
awac_critic_target_200 24KB
awac_critic_target_50 24KB
bc_critic_100 265KB
bc_critic_150 265KB
bc_critic_200 265KB
bc_critic_50 265KB
bc_critic_optimizer_100 530KB
bc_critic_optimizer_150 530KB
bc_critic_optimizer_200 530KB
bc_critic_optimizer_50 530KB
bcq_actor_100 7KB
bcq_actor_150 7KB
bcq_actor_200 7KB
bcq_actor_50 7KB
bcq_actor_optimizer_100 16KB
bcq_actor_optimizer_150 16KB
bcq_actor_optimizer_200 16KB
bcq_actor_optimizer_50 16KB
bcq_actor_target_100 8KB
bcq_actor_target_150 8KB
bcq_actor_target_200 8KB
bcq_actor_target_50 8KB
bcq_critic_100 14KB
bcq_critic_150 14KB
bcq_critic_200 14KB
bcq_critic_50 14KB
bcq_critic_optimizer_100 30KB
bcq_critic_optimizer_150 30KB
bcq_critic_optimizer_200 30KB
bcq_critic_optimizer_50 30KB
bcq_critic_target_100 14KB
bcq_critic_target_150 14KB
bcq_critic_target_200 14KB
bcq_critic_target_50 14KB
bcq_vae_100 15KB
bcq_vae_150 15KB
bcq_vae_200 15KB
bcq_vae_50 15KB
bcq_vae_optimizer_100 32KB
bcq_vae_optimizer_150 32KB
bcq_vae_optimizer_200 32KB
bcq_vae_optimizer_50 32KB
bear_actor_100 8KB
bear_actor_150 8KB
bear_actor_200 8KB
bear_actor_50 8KB
bear_actor_optimizer_100 17KB
bear_actor_optimizer_150 17KB
bear_actor_optimizer_200 17KB
bear_actor_optimizer_50 17KB
bear_actor_target_100 8KB
bear_actor_target_150 8KB
bear_actor_target_200 8KB
bear_actor_target_50 8KB
bear_critic_100 14KB
bear_critic_150 14KB
bear_critic_200 14KB
bear_critic_50 14KB
bear_critic_optimizer_100 30KB
bear_critic_optimizer_150 30KB
bear_critic_optimizer_200 30KB
bear_critic_optimizer_50 30KB
bear_critic_target_100 14KB
bear_critic_target_150 14KB
bear_critic_target_200 14KB
bear_critic_target_50 14KB
bear_vae_100 15KB
bear_vae_150 15KB
bear_vae_200 15KB
bear_vae_50 15KB
bear_vae_optimizer_100 33KB
bear_vae_optimizer_150 33KB
bear_vae_optimizer_200 33KB
bear_vae_optimizer_50 32KB
CqlSac_actor_100 8KB
CqlSac_actor_150 8KB
CqlSac_actor_200 8KB
CqlSac_actor_50 8KB
CqlSac_actor_optimizer_100 17KB
CqlSac_actor_optimizer_150 17KB
CqlSac_actor_optimizer_200 17KB
CqlSac_actor_optimizer_50 17KB
共 266 条
- 1
- 2
- 3
资源评论
夏秃然
- 粉丝: 3930
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功