训练医疗大模型,实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化).zip

preview
共2个文件
zip:1个
txt:1个
版权申诉
star 5星 · 超过95%的资源 1 下载量 199 浏览量 2024-02-07 13:30:01 上传 评论 收藏 8.09MB ZIP 举报
electrical1024
  • 粉丝: 1904
  • 资源: 3381
上传资源 快速赚钱
voice
center-task 前往需求广场,查看用户热搜