给表情包都能猜电影，ChatGPT的“涌现”能力是哪儿来的？资源-CSDN文库

共1个文件

docx：1个

需积分: 10 151 浏览量 2023-03-27 19:49:18 上传评论收藏 114KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

给表情包都能猜电影，ChatGPT的“涌现”能力是哪儿来的？.zip （1个子文件）

给表情包都能猜电影，ChatGPT的“涌现”能力是哪儿来的？.docx 116KB

现在，诸如 ChatGPT 这样的大型语言模型已经足够强大，它们已经开始

表现出惊人的、让人难以预测的行为。

在正式介绍这篇文章之前，我们先提个问题：下图的表情符号描述的是什

么电影呢？

可能连你都猜不出来，这四个符号代表的电影是「海底总动员」，这一提

示任务是去年评测大型语言模型（LLM）204 个任务中的其中一个任务。

对于最简单的 LLM 模型，给出的回答多少有点胡编乱造，它认为这部电

影讲述的是一个男人的故事；相对复杂一点的中型模型，给出的回答是「The

Emoji Movie」，这时答案已经很接近了。不过最复杂的模型猜中了，给

出「海底总动员」这一答案。

谷歌计算机科学家 Ethan Dyer 表示：「模型的这一行为令人感到惊讶。

更令人惊讶的是，这些模型只使用指令：即接受一串文本作为输入，而后

预测接下来会发生什么，并完全基于统计数据来不断重复这个过程。」一

些学者开始预计，扩大模型规模会提高解决已知任务的性能，但他们未预

料到这些模型能突然处理这么多新的、不可预测的任务。

Ethan Dyer 近期所做的一项调查表明，LLM 可以创造出数百种「涌现

（emergent）」能力，即大型模型可以完成而小型模型无法完成某些任务

的能力。显然，随着模型的扩展能力提升了，从简单的乘法到生成可执行

的计算机代码，直到基于表情符号解码电影。新的分析表明，对于某些任

务和某些模型，存在一个复杂性阈值，一旦超过该阈值，模型的功能就会

如火箭腾空般急速提升。不过研究者还指出模型扩展带来的负面影响，即

随着复杂性的增加，一些模型在他们的响应 (response) 中表现出了新的

偏见和不准确性。

斯坦福大学计算机科学家 Rishi Bommasani 表示：「在我所知道的所有

文献中，从未有讨论过语言模型可以做这些事情。」去年，他帮助编制了

一份包含数十种模型涌现行为的清单，其中包括 Ethan Dyer 项目中确定

的几种行为。如今，该清单仍然在继续变长。

如今，研究人员不仅竞相确定大模型涌现能力，而且还想弄清楚它们发生

的原因和方式 —— 本质上是试图预测不可预测性。理解其涌现性可以揭

示与人工智能和机器学习有关的深层问题的答案，比如复杂模型是否真的

在做一些新的事情，或者只是变得非常擅长统计。此外，它还可以帮助研

究人员利用潜在的好处并减少涌现的风险。

突然的涌现

生物学家、物理学家、生态学家和其他科学家使用涌现这一术语来描述当

一大批事物作为一个整体行动时出现的自组织集体性行为。无生命原子的

组合产生了活细胞；水分子创造了波浪；椋鸟群以不断变化但可识别的队

形掠过天空的壮观自然景象；细胞使肌肉运动和心脏跳动。至关重要的是，

涌现能力出现在涉及许多独立部分的系统中。但研究人员直到最近才能够

在 LLM 中记录这种涌现能力，因为这些模型刚刚才发展到足够巨大的规

模。

语言模型已经存在了几十年。直到大约五年前，最强大的模型还是基于循

环神经网络。这些模型本质上取用一串文本并预测下一个单词是什么。使

模型循环的原因在于它从自己的输出中学习：它的预测会反馈到网络中以

提高未来的性能。

2017 年，谷歌大脑（Google Brain）的研究人员推出了一种被称为

Transformer 的新型架构。当循环网络逐字分析句子时，Transformer

会同时处理所有单词。这意味着 Transformer 可以并行处理大量文本。

「很可能是该模型从根本上学到了一些新的和不同的东西，而这些东西在

较小规模的模型上是没有的。」布朗大学的 Ellie Pavlick 表示。

通过增加模型中的参数数量以及其他因素，Transformers 能够快速扩大

语言模型的复杂性。这些参数可以被认为是单词之间的连接，通过在训练

期间打乱文本，transformers 可以调整这些连接从而改进模型。模型中

的参数越多，它就越能准确地建立连接，越接近于模仿人类语言。正如预

期的那样，OpenAI 研究人员在 2020 年进行的一项分析发现，模型随

着规模的扩大而提高了准确性和能力。

但大型语言模型的问世也带来了很多真正意想不到的东西。随着具有

1750 亿个参数的 GPT-3 或可扩展到 5400 亿个参数的谷歌 PaLM

等模型的出现，用户开始描述越来越多的涌现行为。一位 DeepMind 工

程师甚至报告说能够说服 ChatGPT 承认它是一个 Linux 终端，并让它

运行一些简单的数学代码来计算前 10 个素数。值得注意的是，比起在真

正的 Linux 设备上运行相同的代码，它可以更快地完成任务。

与通过表情符号描述电影的任务一样，研究人员没有理由认为为预测文本

而构建的语言模型会被说服用于模仿计算机终端。这些涌现行为中的许多

都证明了零样本或小样本学习，它们描述了 LLM 拥有解决以前从未（或

很少）遇到的问题的能力。Ganguli 说，这一直是人工智能研究的长期目

标。这也表明 GPT-3 可以在零样本设定中无需任何明确训练数据的情况

下解决问题，Ganguli 表示，「这让我放弃了我正在做的事情，更多地参

与到这项研究中。」

在这个研究领域里，他并不孤单。大量研究人员已经发现了 LLM 可以超

越其训练数据限制的第一个线索，他们正在努力更好地理解涌现是什么样

子的以及它是如何发生的。而要做的第一步就是彻底全面地记录它。

内容反馈

a_juvenile

粉丝: 31
资源: 854

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip