背景
如果我们将它想象成一个人,那么,这位朋友性格如何呢?是一个外向的人还是
一个内向的人?是一个容易发脾气的人还是一个情绪稳定的人?是男性化的人还
是女性化的人?
同样,它的智商、理商与情商如何呢?于是,我组织了一个小团队,发起了一个
有趣的项目「大语言模型的人格、智商、理商与社会情绪能力」。其中的社会情
绪能力正是大众关心的「情商」。然而心理学界普遍并不承认情商这一概念,更
科学的称呼正是「社会情绪能力」。
当我们能够清晰地描绘一个大语言模型的人格、智商、理商与社会情绪能力,我
们是不是可以将这些指标综合在一起,形成一个「类人指数」,来描述大语言模
型目前与人类的相似性与相异性。
而今天这份小小的报告,正是本项目的一部分早期工作。在本报告中,我们重点
比较了两个大语言模型:GPT-3.5 与 GPT-4 在人 类 理 性 思 维 测 验 任 务 上 的 表 现 。
需要指出的是,本报告仅仅是一个早期工作,并不完善。
测试流程
如何科学客观地评定大语言模型的理性思维?先来看看人类的理性思维。它源自
人类社会漫长的试错,借助于文化习俗等等,人类建立了一套道德规范与广义理
性。人类不仅追求将事情做完,还追求将事情做好。
可以说,正是理性思维,才使得人之所以成为人。
目前评定人类理性思维,有很多手段,在本报告中,我重点使用了四类经典测试
任务。
第一类:语义错觉类任务。它是一些这样的题目:
摩西在方舟上带了多少种动物?
然而,熟悉西方文化的人都明白,是诺亚方舟,而非摩西方舟。因此,它也称之
为摩西幻觉。它重点考查的是人们是否能够很清晰地区分真实知识与虚假知识。
第二类:认知反射类任务。它是一些这样的题目:一只球棒和一只球的价格是 1.10
美元。球棒的价格比球高 1 美元。那么,球的价格是多少?
很多人会第一时间答错。它重点考查的是人们能否不受直觉干扰,而是深思熟虑
后做出答复。