RLFromHumanPrefrences：加强从人类偏好中学习，以产生与预期不符的行为，并通过Garner工具通过人类偏好进行学习资源-CSDN文库

共35个文件

py：16个

json：4个

jsonl：4个

需积分: 13 130 浏览量 2021-02-13 08:11:42 上传评论收藏 400KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

RLFromHumanPrefrences-main.zip （35个子文件）

folder

RLFromHumanPrefrences-main

folder

.ipynb_checkpoints

reward_predictor-checkpoint.py 6KB

pref_db-checkpoint.py 7KB

evaluation.py 2KB

folder

baselines

main.py 7KB

folder

wandb

folder

run-20201119_204157-3ouumq8n

wandb-summary.json 188B

requirements.txt 7KB

wandb-history.jsonl 616KB

config.yaml 151B

wandb-events.jsonl 4KB

wandb-metadata.json 783B

folder

run-20201119_204621-2ohukqv8

wandb-summary.json 136B

requirements.txt 7KB

wandb-history.jsonl 717KB

config.yaml 151B

wandb-events.jsonl 20KB

wandb-metadata.json 783B

requirements.txt 15B

main-old.py 8KB

training.ipynb 13KB

LICENSE 1KB

reward_predictor.py 6KB

README.md 1KB

pref_db.py 7KB

download.gif 209KB

folder

Garner-python

pref_work.ipynb 19KB

.gitignore 1KB

folder

a2c_ppo_acktr

kfac.py 8KB

arguments.py 5KB

utils.py 2KB

model.py 7KB

__init__.py 0B

storage.py 10KB

a2c_acktr.py 3KB

envs.py 8KB

distributions.py 3KB

内容反馈

Aurora曙光

粉丝: 914
资源: 4528

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip