【免费】ChatGPT背后技术详解.zip资源-CSDN文库

共1个文件

docx：1个

需积分: 0 92 浏览量 2023-05-29 21:36:44 上传评论收藏 271KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

ChatGPT背后技术详解.zip （1个子文件）

ChatGPT背后技术详解.docx 272KB

ChatGPT 背后的“功臣”——RLHF 技术

详解

OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮，它面对多种多样的问题

对答如流，似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型

(Large Language Model，LLM) 生成领域的新训练范式：RLHF (Reinforcement

Learning from Human Feedback) ，即以强化学习方式依据人类反馈优化语言模型。

过去几年里各种 LLM 根据人类输入提示 (prompt) 生成多样化文本的能力令人

印象深刻。然而，对生成结果的评估是主观和依赖上下文的，例如，我们希望模

型生成一个有创意的故事、一段真实的信息性文本，或者是可执行的代码片段，

这些结果难以用现有的基于规则的文本生成指标 (如 BLEU 和 ROUGE) 来衡量。

除了评估指标，现有的模型通常以预测下一个单词的方式和简单的损失函数 (如

交叉熵) 来建模，没有显式地引入人的偏好和主观意见。

如果我们用生成文本的人工反馈作为性能衡量标准，或者更进一步用该反馈作

为损失来优化模型，那不是更好吗？这就是 RLHF 的思想：使用强化学习的方式

直接优化带有人类反馈的语言模型。RLHF 使得在一般文本数据语料库上训练的

语言模型能和复杂的人类价值观对齐。

看看 ChatGPT 是如何解释 RLHF 的：

ChatGPT 解释的很好，但还没有完全讲透；让我们更具体一点吧！

RLHF 是一项涉及多个模型和不同训练阶段的复杂概念，这里我们按三个步骤分

解：

1. 预训练一个语言模型 (LM) ；

2. 聚合问答数据并训练一个奖励模型 (Reward Model，RM) ；

3. 用强化学习 (RL) 方式微调 LM。

Step 1. 预训练语言模型

首先，我们使用经典的预训练目标训练一个语言模型。对这一步的模型，OpenAI

在其第一个流行的 RLHF 模型 InstructGPT 中使用了较小版本的 GPT-3;

Anthropic 使用了 1000 万～ 520 亿参数的 Transformer 模型进行训练；

DeepMind 使用了自家的 2800 亿参数模型 Gopher。

这里可以用额外的文本或者条件对这个 LM 进行微调，例如 OpenAI 对 “更可

取” (preferable) 的人工生成文本进行了微调，而 Anthropic 按 “有用、诚实和无

害” 的标准在上下文线索上蒸馏了原始的 LM。这里或许使用了昂贵的增强数据，

但并不是 RLHF 必须的一步。由于 RLHF 还是一个尚待探索的领域，对于” 哪种

模型” 适合作为 RLHF 的起点并没有明确的答案。

内容反馈

心是凉的

粉丝: 28
资源: 1848

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip