GPT 的出现,不得不说是人类整个科技发展史上的里程碑。那么你知道 GPT 到
底有多聪明吗?它的边界在哪?我们这个系列将为您着重阐述这一点。
鉴别能力
辨别力是智力的一个组成部分,它使代理人能够对不同的刺激、概念和情况进行
区分。这种能力反过来使代理人能够理解并以更有效的方式对其环境的各个方面
作出反应。
例如,区分不同类型食物的能力可以帮助动物识别哪些是可以安全食用的,哪些
可能是有毒的。总的来说,辨别能力很重要,因为它可以让人做出更准 确的判
断和决定,这是智力的一个重要组成部分。
我们还强调,通过本文,我们已经讨论了 GPT-4 的生成能力。人们通常认为,更
强的生成能力只是完善了辨别能力。在本节中,我们首先通过描述 GPT-4 在识别
句子中的个人身份信息方面的表现来激发它的辨别能力。
然后,我们将讨论 GPT-4 与同时代产品相比,如何善于回答具有挑战性的问题
(可能导致误解)。GPT-4 还能够理解为什么(模型生成的)答案更接近于“黄
金”答案;这些解释大多是合理的。
通过这样做,它能够确定一对答案中的哪一个更接近黄金答案,而且这种确定与
人类执行相同任务的情况合理地一致。
重要声明:我们的实验是在 GPT-4 的早期版本上进行的。特别是在 GPT-4 的最终
版本上,所有的定量结果都会有所不同,尽管总体趋势仍然是一样的。
1、PII 检测
我们通过让 GPT-4 识别个人身份信息(PII)的任务来激发它执行辨别任务的能力。
GPT-4 的具体任务如下:给定一个特定的句子,确定构成 PII 的片段,并计算此
类片段的总数。这是一个具有挑战性的问题。
首先,不清楚什么是 PII:它可以包括电子邮件地址、电话号码、社会保险号码、
信用卡号码,以及其他无害的信息,如地方和地点的名称。作为 PII 的来源,我
们利用文本匿名化基准(TAB)中的一个数据子集。
这个数据集由样本组成,其中包括:(a)句子,(b)句子中各种类型的 PII 的信息,
以及(c)PII 元素本身。从(c)中,我们可以得出每个句子的 PII 元素的数量。