为什么ChatGPT用强化学习而非监督学习_模仿学习有监督学习资源-CSDN文库

共2个文件

rtf：1个

docx：1个

语言模型

人工智能

需积分: 1 32 浏览量 2023-05-22 23:48:45 上传评论 1 收藏 29KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

为什么ChatGPT用强化学习而非监督学习.zip （2个子文件）

备注.rtf 691B

为什么ChatGPT用强化学习而非监督学习.docx 31KB

为何使用强化学习？

随着 ChatGPT 等大型语言模型的发布，人们对“RLHF 训练（即基于人类反馈的强化

学习训练）”的重要性进行了诸多讨论。在训练语言模型方面，我一度困惑于为什么

强化学习比从演示中学习（也称为监督学习）更好，难道从演示中学习（或根据语

言模型术语中的“指令微调”，学习模仿人类写的回答）还不够？我提出了一个有说服

力的理论论据。不过我意识到还有另一个论点，它不仅支持强化学习训练，而且尤

其适用于 ChatGPT 等模型。

背景：监督学习 vs 强化学习

简要地解释一下这两种学习场景，以便我们能够达成共识。如果你已经了解了这些

内容，可以跳过此部分。预训练：在这两种设置中，首先我们假设语言模型在大量

的文本上进行预训练，以预测下一个 token。因此，对于每个词序列，我们有一个

模型可对潜在的下一个词的选项分配概率。通过这种方式，模型会获得语言的某种

内部表示。经过这一过程，模型的生成文本能力会变强，且能够根据给定文本前缀，

生成符合自然习惯的后续文本，但它并不擅长“交流”。例如，当提示（prompted）一

个问题时，模型可能会回答该问题或者生成一系列附加问题，也可能会回答这是一

个在......的上下文中提出的重要问题等等。这些都是遵循自然语言文本问题的有效延

续（continuation）。我们可以通过编写输入文本，来使模型执行我们所希望的语言

行为，该延续会解决我们的问题（也被称之为“提示工程”），但是对于只想提出问题

或指令就让模型进行回答的非专家用户来说，这种交互模式并不非常方便。如果我

们希望模型能够持续回答查询而不是仅仅完成当前指令，就需要对其进行引导，这

个过程称之为“微调”，即继续训练预训练模型，进而使其表现出我们想要的行为（有

些人称这是“对齐”模型与使用者期望行为）。监督训练：在监督学习中（也称为从演

示中学习或“指令微调”），我们会收集一组人类编写的文本，这些文本以问题或指令

的形式出现，并包含了期望的输出。例如，这些文本可以是某一问题和答案，或者

是像带有人类编写总结的 summarize the following text {text}这样的任务。通过在相

同的“给定前缀预测下一个 token”的目标上继续训练模型，但这次是在指令-输出对

集合上，模型学会通过执行指令来响应。即模型接收到给定问题的正确输出的演示，

并学会复制输出结果。我们希望通过这种方式将其泛化到训练中尚未出现的问题中

去。强化学习（RL）：在强化学习中，我们为模型提供指令，但并不提供人工编写的

答案。模型需要自己生成答案。评分机制（例如人类）会读取生成的答案，并告诉

模型这些答案的质量。模型的目标是如何回答以获得高分。另一种机制是模型生成

多个答案，评分机制告诉模型哪个答案最好。模型的目标是学习生成高分的答案，

而不是低分的答案。在这两种情况下，模型通过生成答案并接收反馈来学习。（注意：

许多研究人员将强化学习的范围限定在基于 credit 分配机制的某些技术层面。于他

们而言，“我们是否需要强化学习”的问题也许归结为我们应该使用该技术还是采取

其他相关技术来替代。我与他们同样好奇，但就本文目的而言，我认为任何使用外

部评分函数的方法均可视为强化学习，无论其运行机制如何。）强化学习比监督训练

难得多，原因如下：首先是“credit 分配”问题。语言模型生成一段 token 序列，且仅

在序列末尾才能获得一个分数。由于信号很弱，我们不能确定答案哪些部分是良好

的，哪些部分是糟糕的。许多有关强化学习的相关技术研究都在尝试解决该问题，

但在本文中我们先不谈这个问题。credit 分配问题是一个活跃的研究领域，但已经

存在合理的解决方案。其次，我们需要一种评分机制来对答案进行评分（或为答案

评分或比较两个答案），而在基于语言的任务中，很难生成自动评分机制（尽管这可

能正在改变，下文会简单论述）。因此，我们会在强化学习的每一步留下“人类反馈”，

但这种方式成本高昂且效率低下，考虑到每个人类反馈只能给出一个相当稀疏的信

号，问题会更加糟糕。基于以上困难，我们为什么还要使用强化学习呢？为什么不

仅仅选择监督学习呢？

多样性论证

对于语言生成模型来说，监督学习/指令调优最大的问题是它们只能复制演示者给出

的确切答案，但实际上，人类语言可以用多种方式传递相同的信息，它们都是切实

可行的。如果因模型轻微偏离人类规定的文本而受到“惩罚”，可能会使模型产生困惑。

我们当然可以继续逼迫模型去学习更难学习的遣词造句，尽管模型已经学会了生成

具有同样意思、合法的替代性回答。因此，我们非常看好强化学习训练提供的多样

性表达。考虑到监督学习在实践中的良好应用，以及训练强化学习模型所面临的挑

战，这是一个非常直观的论点，但不够有说服力。一直以来，我并不认为这是一个

足够核心的问题，现在我仍这样想。

理论论证

监督学习只允许正反馈（我们向模型展示一系列问题及其正确答案），而 RL 允许负

反馈（模型被允许生成答案并得到反馈说“这答案是不正确的”），这是我提出的第一

个关于 LLM 领域的监督学习 vs 强化学习的强有力论点。从严格的学习理论的角度

来看，两者之间有很大的区别：相比正反馈，负反馈要强大得多。从理论论证的角

度，当模型只从演示中学习时，对抗型（或粗心的）演示者（demonstrator）可以

隐瞒重要例子，从而误导学习者（learner）学习错误的假设。演示者控制着整个学

习过程，但如果学习者能够形成自己的假设，并询问老师（teacher）假设是否正确

（例如强化学习设置），通过这种方式，即使是对抗性老师也无法再欺骗学习者学习

评论收藏

内容反馈

秒变学霸的18岁码农

粉丝: 775
资源: 94

为什么ChatGPT用强化学习而非监督学习

ChatGPT的半监督学习与强化学习方法.docx

解析 ChatGPT 背后的工作原理

ChatGPT学习资料免费分享

ChatGPT智能AI机器人微信小程序源码-带部署教程

ChatGPT原理分析，ChatGPT原理浅析，ChatGPT原理

三分钟看懂ChatGPT

ChatGPT超详细知识文档

ChatGPT原理浅析

ChatGPT背景、原理、模型、特点

ChatGPT前身，从人类反馈中学习

解析 ChatGPT 背后的工作原理.pdf

火爆全网的ChatGPT智能AI机器人微信小程序源码

ChatGPT研究框架 transformer

火爆全网的ChatGPT小程序页面模板地表最强大的AI支持写作绘画聊天唱歌跳舞.zip

深入浅出，解析ChatGPT背后的工作原理

分析下ChatGPT 背后的工作原理

2023最新ChatGPT智能AI机器人微信小程序源码-带部署教程.zip

YOLOv8-deepsort 实现智能车辆目标检测+车辆跟踪+车辆计数

YOLOv8网络结构图，自制visio文件，yolov8.vsds，需要的自取，在原有的基础上直接改就行了

yolov8(2023年8月版本),已经下好yolov8s.pt和yolov8n.pt

Transformer模型实现长期预测并可视化结果（附代码+数据集+原理介绍）

社交平台上经济类话题的文章热度信息，数据是真实的，但不是真实日期

行人跌倒数据集（VOC格式）

Unet眼底血管图像分割数据集+代码+模型+系统界面+教学视频.zip

全新的SOTA模型YOLOv9

YOLOV5 + 双目相机实现三维测距（新版本）

YOLOV5口罩检测数据集+代码+模型 2000张标注好的数据+教学视频.zip

pycharm连接autodl服务器（yolov8训练自己的数据集）

Deep Learning Tuning Playbook（中译版）

最新资源