现在,诸如 ChatGPT 这样的大型语言模型已经足够强大,它们已经开始
表现出惊人的、让人难以预测的行为。
在正式介绍这篇文章之前,我们先提个问题:下图的表情符号描述的是什
么电影呢?
可能连你都猜不出来,这四个符号代表的电影是「海底总动员」,这一提
示任务是去年评测大型语言模型(LLM)204 个任务中的其中一个任务。
对于最简单的 LLM 模型,给出的回答多少有点胡编乱造,它认为这部电
影讲述的是一个男人的故事;相对复杂一点的中型模型,给出的回答是「The
Emoji Movie」,这时答案已经很接近了。不过最复杂的模型猜中了,给
出「海底总动员」这一答案。
谷歌计算机科学家 Ethan Dyer 表示:「模型的这一行为令人感到惊讶。
更令人惊讶的是,这些模型只使用指令:即接受一串文本作为输入,而后
预测接下来会发生什么,并完全基于统计数据来不断重复这个过程。」一
些学者开始预计,扩大模型规模会提高解决已知任务的性能,但他们未预
料到这些模型能突然处理这么多新的、不可预测的任务。
Ethan Dyer 近期所做的一项调查表明,LLM 可以创造出数百种「涌现
(emergent)」能力,即大型模型可以完成而小型模型无法完成某些任务
的能力。显然,随着模型的扩展能力提升了,从简单的乘法到生成可执行
的计算机代码,直到基于表情符号解码电影。新的分析表明,对于某些任
务和某些模型,存在一个复杂性阈值,一旦超过该阈值,模型的功能就会
如火箭腾空般急速提升。不过研究者还指出模型扩展带来的负面影响,即
随着复杂性的增加,一些模型在他们的响应 (response) 中表现出了新的
偏见和不准确性。
斯坦福大学计算机科学家 Rishi Bommasani 表示:「在我所知道的所有
文献中,从未有讨论过语言模型可以做这些事情。」去年,他帮助编制了