【免费】GPT到底有多聪明？这次附上另一份GPT研究报告资源-CSDN文库

共1个文件

docx：1个

人工智能

语言模型

需积分: 0 121 浏览量 2023-04-30 23:26:54 上传评论收藏 480KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

GPT到底有多聪明？这次附上另一份GPT研究报告.zip （1个子文件）

GPT到底有多聪明？这次附上另一份GPT研究报告.docx 486KB

GPT 的出现，不得不说是人类整个科技发展史上的里程碑。那么你知道 GPT 到

底有多聪明吗？它的边界在哪？我们这个系列将为您着重阐述这一点。

鉴别能力

辨别力是智力的一个组成部分，它使代理人能够对不同的刺激、概念和情况进行

区分。这种能力反过来使代理人能够理解并以更有效的方式对其环境的各个方面

作出反应。

例如，区分不同类型食物的能力可以帮助动物识别哪些是可以安全食用的，哪些

可能是有毒的。总的来说，辨别能力很重要，因为它可以让人做出更准确的判

断和决定，这是智力的一个重要组成部分。

我们还强调，通过本文，我们已经讨论了 GPT-4 的生成能力。人们通常认为，更

强的生成能力只是完善了辨别能力。在本节中，我们首先通过描述 GPT-4 在识别

句子中的个人身份信息方面的表现来激发它的辨别能力。

然后，我们将讨论 GPT-4 与同时代产品相比，如何善于回答具有挑战性的问题

（可能导致误解）。GPT-4 还能够理解为什么（模型生成的）答案更接近于“黄

金”答案；这些解释大多是合理的。

通过这样做，它能够确定一对答案中的哪一个更接近黄金答案，而且这种确定与

人类执行相同任务的情况合理地一致。

重要声明：我们的实验是在 GPT-4 的早期版本上进行的。特别是在 GPT-4 的最终

版本上，所有的定量结果都会有所不同，尽管总体趋势仍然是一样的。

1、PII 检测

我们通过让 GPT-4 识别个人身份信息（PII）的任务来激发它执行辨别任务的能力。

GPT-4 的具体任务如下：给定一个特定的句子，确定构成 PII 的片段，并计算此

类片段的总数。这是一个具有挑战性的问题。

首先，不清楚什么是 PII：它可以包括电子邮件地址、电话号码、社会保险号码、

信用卡号码，以及其他无害的信息，如地方和地点的名称。作为 PII 的来源，我

们利用文本匿名化基准（TAB）中的一个数据子集。

这个数据集由样本组成，其中包括：(a)句子，(b)句子中各种类型的 PII 的信息，

以及(c)PII 元素本身。从(c)中，我们可以得出每个句子的 PII 元素的数量。

例如，"根据海关和税务部门的调查、从 20 世纪 80 年代末到 1994 年，大约有一

千六百家总欠税超过 20 亿丹麦克朗的公司被剥离 "有 3 个 PII 要素：(a)丹麦克朗

(DKK)，(b)丹麦(从克朗的语气中得出)，和(c) "1980 年代末到 1994 年" 所规定的

时间长度。

我们能够得到总共 6764 个句子。我们评估的具体任务是确定一个句子的 PII 元素

的数量。为了做到这一点，我们利用两种方法。

作为一个基线，我们利用微软开发的一个开源工具 Presidio。Presidio 利用命名实

体识别和正则表达式匹配的组合来检测 PII。为了与这一基线进行比较，我们利

用下图中的 GPT-4 的零点提示：

用于使用 GPT-4 启用 PII 检测的提示

请注意，作为这个提示的一部分，我们没有向 GPT-4 提供任何例子；我们只提供

了 TAB 数据集中提供的 PII 类别的信息。

作为实验的一部分，我们检查这两种方法是否能够(a)确定每个句子中 PII 元素的

确切数量，(b)确定除一个 PII 元素以外的所有元素，(c)确定除两个 PII 元素以外

的所有元素，以及(d)遗漏三个以上的 PII 元素。实验的结果总结在下表中。

观察到 GPT-4 在 PII 检测方面优于定制的工具

突出的发现：请注意，尽管没有提供实例，但 GPT-4 的性能优于 Presidio，后者

是为这项特殊任务定制的工具。GPT-4 在 77.4%的情况下能够与基础事实相匹配，

而它在 13%的情况下漏掉了一个 PII 元素。

该模型能够捕捉到 PII 的微妙发生；从上图中，我们看到该模型能够根据货币（克

朗）推断出一个地点（丹麦）。

Presidio 没有发现货币是一个 PII 元素，因此也错过了位置。即使模型所犯的错误

也是非常微妙的。

PII 元素（例如，"哥本哈根市法院"和"Københavns Byret"都是一样的），而 GPT-4

将其算作一个元素。

讨论：我们猜测 GPT-4 更好，因为 PII 的识别是针对特定的环境。由于该模型能

够更好地理解上下文信息，正如其在前面几节定义的任务中的表现所见证的那样，

这项任务对该模型来说也是相对容易的。

虽然我们承认所进行的评估并不是对各种不同形式的 PII 的详尽评估，但这确实

可以作为初步证据来强调 GPT-4 的可扩展性。我们相信，通过进一步改进提示，

捕捉更多的 PII 类别相关信息，性能将进一步提高。

2、误解和事实的核对

我们希望了解 GPT-4 是否可以用来确定语句之间的相似性；这是一个具有挑战性

的问题，已经得到了 NLP 社区的广泛关注。

为此，我们考虑了开放世界问题回答的设置，其中模型的目标是生成特定问题的

答案。我们这样做有两个原因：(a)它提供了关于 GPT-4 真实性的重要信息以及对

其推理能力的一些见解，(b)现状的度量没有有效地捕获相似性（原因我们将在

下面描述）。

评论收藏

内容反馈

残余的记忆

粉丝: 9
资源: 323

GPT到底有多聪明？这次附上另一份GPT研究报告

GPT到底有多聪明？附上一份GPT研究报告

GPT到底有多聪明？看这份GPT研究报告就知道了

超详尽！一百五十多页的微软GPT研究报告（全中文版）.rar

GPT到底是什么？它能干什么？

GPT将如何影响我们？

都在说GPT，这个GPT到底是啥？

GPT是什么？GPT能帮助你做什么？如何使用GPT？

GPT-4到底有多强多聪明

GPT具有意识吗？如何判断GPT具有了意识呢？

ChatGPT当中的“GPT”是什么意思？

GPT到底是啥？了解就知道了

GPT是个什么东西？什么时候可以替我去上班？

GPT目前存在哪些缺陷？主要这三个缺陷

火爆全球的Chat GPT，想毁灭人类？

微软GPT研究报告（中文版）

GPT又有新应用？AI HR来了

微软GPT研究报告：人工通用智能的火花，GPT-4的早期实验（中文版）

老年人能玩玩 Chat GPT 吗？怎么玩？它能帮您干什么？

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

民宿网站

桌面聊天室

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

2023泛娱乐社交出海手册-ZEGO即构科技

4个亲测好用的ChatGPT4渠道

HAI-2024斯坦福AI指数报告（中文译版）.pdf

最新资源