RLFromHumanPrefrences:加强从人类偏好中学习,以产生与预期不符的行为,并通过Garner工具通过人类偏好进行...

preview
共35个文件
py:16个
json:4个
jsonl:4个
需积分: 13 3 下载量 130 浏览量 2021-02-13 08:11:42 上传 评论 收藏 400KB ZIP 举报
Aurora曙光
  • 粉丝: 914
  • 资源: 4528
上传资源 快速赚钱
voice
center-task 前往需求广场,查看用户热搜

最新资源