没有合适的资源?快使用搜索试试~ 我知道了~
ChatGPT 是 InstructGPT 的衍生产品,它引入了一种新的方法,将人类反馈纳入训练过程中,使模型的输出与用户的意图更好地结合。来自人类反馈的强化学习(RLHF)在 openAI 的 2022 年论文《Training language models to follow instructions with human feedback》中进行了深入描述,在下文我们将进行简单的介绍。
资源推荐
资源详情
资源评论
ChatGPT 的原理分析
ChatGPT
ChatGPT 是 InstructGPT 的衍生产品,它引入了一种新的方法,将人类反馈纳
入训练过程中,使模型的输出与用户的意图更好地结合。来自人类反馈的强化学
习(RLHF)在 openAI 的 2022 年论文《Training language models to follow
instructions with human feedback》中进行了深入描述,在下文我们将进行简单
的介绍。
第一步:监督微调(SFT)模型
第一个开发步骤涉及微调 GPT-3 模型,先是需要雇佣 40 个承包商创建一个有
监督的训练数据集,其中的输入有一个已知的输出供模型学习。输入或提示
(prompts)是从实际用户输入到 Open API 中收集的。然后标注人员根据提示
(prompts)写一个适当的回复,从而为每个输入创建一个已知的输出。然后使
用这个有监督的新数据集对 GPT-3 模型进行微调,从而创建 GPT-3.5,也称为
SFT 模型。
为了最大化提示(prompts)数据集的多样性,任何给定的用户 ID 只能有 200
个提示(prompts),并且任何共享长公共前缀的提示(prompts)都被删除了。
并且所有包含个人识别信息(PII)的提示(prompts)都被删除了。
在汇总来自 OpenAI API 的提示(prompts)后,标注师需要创建示例提示
(prompts)以填写只有最少真实样本数据的类别。这些类别包括:
资源评论
鼠耗子
- 粉丝: 1
- 资源: 13
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功