理性思维超越人类？GPT-4真正大杀八方的是这项能力

共1个文件

docx：1个

语言模型

自然语言处理

需积分: 8 7 浏览量 2023-04-02 17:46:42 上传评论收藏 1.3MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

理性思维超越人类？GPT-4真正大杀八方的是这项能力.zip （1个子文件）

理性思维超越人类？GPT-4真正大杀八方的是这项能力.docx 1.41MB

背景

如果我们将它想象成一个人，那么，这位朋友性格如何呢？是一个外向的人还是

一个内向的人？是一个容易发脾气的人还是一个情绪稳定的人？是男性化的人还

是女性化的人？

同样，它的智商、理商与情商如何呢？于是，我组织了一个小团队，发起了一个

有趣的项目「大语言模型的人格、智商、理商与社会情绪能力」。其中的社会情

绪能力正是大众关心的「情商」。然而心理学界普遍并不承认情商这一概念，更

科学的称呼正是「社会情绪能力」。

当我们能够清晰地描绘一个大语言模型的人格、智商、理商与社会情绪能力，我

们是不是可以将这些指标综合在一起，形成一个「类人指数」，来描述大语言模

型目前与人类的相似性与相异性。

而今天这份小小的报告，正是本项目的一部分早期工作。在本报告中，我们重点

比较了两个大语言模型：GPT-3.5 与 GPT-4 在人类理性思维测验任务上的表现。

需要指出的是，本报告仅仅是一个早期工作，并不完善。

测试流程

如何科学客观地评定大语言模型的理性思维？先来看看人类的理性思维。它源自

人类社会漫长的试错，借助于文化习俗等等，人类建立了一套道德规范与广义理

性。人类不仅追求将事情做完，还追求将事情做好。

可以说，正是理性思维，才使得人之所以成为人。

目前评定人类理性思维，有很多手段，在本报告中，我重点使用了四类经典测试

任务。

第一类：语义错觉类任务。它是一些这样的题目：

摩西在方舟上带了多少种动物？

然而，熟悉西方文化的人都明白，是诺亚方舟，而非摩西方舟。因此，它也称之

为摩西幻觉。它重点考查的是人们是否能够很清晰地区分真实知识与虚假知识。

第二类：认知反射类任务。它是一些这样的题目：一只球棒和一只球的价格是 1.10

美元。球棒的价格比球高 1 美元。那么，球的价格是多少？

很多人会第一时间答错。它重点考查的是人们能否不受直觉干扰，而是深思熟虑

后做出答复。

第三类：证伪选择类任务。它重点考察人们是否能看到证伪假设的能力。这类任

务在认知科学中，最著名的莫过于「沃森四色卡片实验」。同样，我们也拿这个

来考察 AI。

第四类：心智程序类任务。前三类任务往往和人类的认知吝啬鬼倾向先天有关系。

但是，我们人类理性思维的高低还会受到后天教育的影响。学习某些学科必然提

高一个人的理性思维。我总结为典型的三大类：概率论与统计学知识、临床医学

与实验心理学知识、金融与经济学知识等等。

从我们团队以及其他类似研究的题库中，我们总计抽取了 28 道题目。然后分别使

用 GPT-3.5 与 GPT-4 两大模型测试。

更严谨的做法，应该是使用中英文双语版，以及测试更多场景、更多题目、更多

大语言模型。

但，作为一个早期工作，我们快速报告最关键的结论：GPT-4 在人类理性思维测

验上的表现是 GPT-3.5 的一倍，并且超过受过高等教育的人类水准。

需要提醒的是，这个结论未来随时可能被修正、被推翻。各位读者请理解。

现在，跟着我一一来看一下具体测试结果。

语义错觉类任务

在语义错觉类任务这里，我们挑选了 4 个任务。测试结果如下图所示：

案例分析：

第一题：

两个模型回答都不太对，1 月 31 日不是春节。可见，模型语料对于日期这种类型

的语义识别和理解还不够。出现了与事实相悖的虚假答案。

后三题，两个模型回答都是对的，但 GPT-4 会先指出错误，再进行解释，整体

逻辑明显更清晰。

需要指出的是，在斯坦福大学认知科学家 Michal Kosinski 2022 年对 GPT-3.5 的

测试中，后三道题目均回答错误。可以说，GPT-3.5 与 GPT-4 都在快速学习，尤

其是错过的题目，经提问者提示正确答案后，可能不会再次答错。

认知反射类任务

在认知反射类任务这里，我们挑选了三类任务。

直觉减法操作

第一类任务会触发一个快速的直觉减法操作，然而它是错误的。测试结果如下图

所示：

案例分析：

对于第一类任务来说，GPT-4 相较于 GPT-3.5 而言，解答数学代数方程的能力

明显更强。

第一题答案对比：

两个模型都答对了，GPT-4 罗列了严谨的解方程过程。而 GPT-3.5 的答案使用

了许多文字表达，不够简洁。

评论收藏

内容反馈

a_juvenile

粉丝: 31
资源: 854

理性思维超越人类？GPT-4真正大杀八方的是这项能力

最新资源