RLHF(基于人类反馈的强化学习)算法的简单实现。.zip

preview
共423个文件
py:139个
sh:117个
json:74个
版权申诉
0 下载量 48 浏览量 2024-05-11 17:18:40 上传 评论 收藏 12.13MB ZIP 举报
生瓜蛋子
  • 粉丝: 3828
  • 资源: 5678
benefits
下载权益
privilege
C知道特权
article
VIP文章
course-privilege
课程特权
rights VIP享7折,此内容立减5.97元
开通VIP
上传资源 快速赚钱
voice
center-task 前往需求广场,查看用户热搜