ChatGPT 背后的“功臣”——RLHF 技术
详解
OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮,它面对多种多样的问题
对答如流,似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型
(Large Language Model,LLM) 生成领域的新训练范式:RLHF (Reinforcement
Learning from Human Feedback) ,即以强化学习方式依据人类反馈优化语言模型。
过去几年里各种 LLM 根据人类输入提示 (prompt) 生成多样化文本的能力令人
印象深刻。然而,对生成结果的评估是主观和依赖上下文的,例如,我们希望模
型生成一个有创意的故事、一段真实的信息性文本,或者是可执行的代码片段,
这些结果难以用现有的基于规则的文本生成指标 (如 BLEU 和 ROUGE) 来衡量。
除了评估指标,现有的模型通常以预测下一个单词的方式和简单的损失函数 (如
交叉熵) 来建模,没有显式地引入人的偏好和主观意见。
如果我们 用生成文本的人工反馈作为性能衡量标准,或者更进一步用该反馈作
为损失来优化模型,那不是更好吗?这就是 RLHF 的思想:使用强化学习的方式
直接优化带有人类反馈的语言模型。RLHF 使得在一般文本数据语料库上训练的
语言模型能和复杂的人类价值观对齐。
看看 ChatGPT 是如何解释 RLHF 的: