技术动态-基于GPT-4的知识图谱构建能力评测资源-CSDN文库

共1个文件

docx：1个

需积分: 4 35 浏览量 2023-04-04 16:44:59 上传评论收藏 1.12MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

技术动态基于GPT-4的知识图谱构建能力评测.zip （1个子文件）

技术动态基于GPT-4的知识图谱构建能力评测.docx 1.22MB

技术动态 | 基于 GPT-4 的知识图谱构建能力评测

一、摘要

知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的

大规模语义网络，是大数据时代知识表示的重要方式之一。而大型语言模

型，如 OpenAI 发布的 GPT-4 ，通过在大量文本等数据上进行预训练，展

示出了极其强大的通识知识和问题解决能力[1][2][3][4]。知识图谱可以为

大型语言模型提供精准的结构化的知识，助力和改善模型的推理效果和生

成质量，并提供对知识的精准操作和分析能力。

目前，诸多领域仍缺乏足够精准和完备的知识图谱，那么 GPT-4 等大

模型是否能为高效知识图谱构建带来便利？我们对 GPT-4 的知识抽取能力

进行了分析，探究的主要内容有：

1. GPT-4 对不同类型知识如事实、事件及不同领域如通用、垂直知识

的抽取能力分析

2. GPT-4 和 ChatGPT 抽取能力对比及错误案例分析

3. GPT-4 抽取未见知识的泛化能力分析

4. 展望大模型时代知识图谱构建的新思路

二、知识抽取能力分析

因还未申请到 GPT-4 的 API，我们基于 ChatGPT-plus 的交互式界面

并通过随机采样测试集/验证集样本的方式，评测了 GPT-4 在实体、关系、

事件等知识上的 Zero-shot 以及 One-shot 抽取能力，并和 ChatGPT 及

全监督基线模型的结果进行了对比。我们选取了 DuIE2.0[5] 、

RE-TACRED[6]、MAVEN[7]以及 SciERC[8]作为本次实验的数据集。因为

部分数据集并未提供实体类型，所以我们在指令提示(Prompt)中统一设置

为只提供待抽取的关系/事件类型，且不显式指定待抽取的实体类型。

通过随机采样测试，我们发现，无论在 Zero-shot 还是 One-shot 的

情况下，GPT-4 在多个学术基准抽取数据集上均取得了相对较好的性能，

且比 ChatGPT 取得了一定程度的进步。同时，One-shot 的引入也使模型

在 Zero-shot 上的性能得到了进一步提升。这在一定程度上说明了 GPT-4

具备着对不同类型、不同领域知识的抽取能力。然而，我们也发现目前

GPT-4 仍不如全监督小模型。这也与前人的相关工作发现一致[2][4]。特别

注意的是，该结果为随机采样测试集并通过交互界面（非 API）测试结果，

可能会受到测试集数据分布和采样样本的影响。

此外，提示的设计和数据集本身的复杂程度也对本次实验的结果有较大

的影响。具体地，我们发现在四种数据集上 ChatGPT 和 GPT-4 评估结果

可能受到如下几种原因的影响：

� 数据集：存在噪音且部分数据集类型不够明晰（如未提供头尾实体类

型、语境复杂等）

� 指令提示(Prompt)：语义不够丰富的指令会影响抽取性能（如加入

相关样本 In-Context Learning[9]可以提升性能；Code4Struct[10]发现基

于代码结构可促进结构化信息抽取）。需要指出的是，由于部分数据集存

在无头尾实体类型的情况，此处为了横向公平对比不同模型在数据集上的

能力，实验在提示指令中并未指明抽取的实体类型，这也会在一定程度上

影响实验的结果。

� 评估方式：现有的评估方式可能不太适用于大模型如 ChatGPT 与

GPT-4 抽取能力的评估。如数据集中所给标签并未完全覆盖正确答案，部

分超出答案的结果仍可能是正确的（存在同义词等）。

具体内容我们将在下一章节进行详细分析。

三、能力对比与错误案例分析

我们进一步针对选取的四个数据集中的部分案例进行了分析（由于实验

中使用的 Prompt 较长，在这里只展示部分重要信息）。

（一） DuIE2.0

1. Zero-shot

▪ ChatGPT VS GPT-4

在 SPO 三元组的抽取过程中，我们注意到在使用相同的 Prompt 的情

况下，GPT-4 更能理解 Prompt 所提供的指令并理解待抽取样本的上下文

信息，执行符合条件的三元组抽取。如图所示，ChatGPT 虽然能够理解句

子的大意，给出[作者，是 , 岑叶明]的结果，但与答案[昔年一起走过的

路 , 作者 , 岑叶明]仍存在较大差距。相较于 GPT-4 在此条样本上的表现，

ChatGPT 在谓词的抽取上以及主语宾语的选择上显得不够精炼准确。

▪ GPT-4

在上图中，我们让 GPT-4 完成对句子“然而近日，网友通过不少陈年旧

照发现，张小斐其实并非喜剧曲艺出身，而是毕业于 2005 届北京电影学

院的表演系本科专业，与现今大红大紫的内地花旦杨幂、袁姗姗等曾同窗

为友，怪不得每次出场气质逼人”的三元组抽取。数据集中给出的正确答案

为[杨幂 , 毕业院校 , 北京电影学院]、[杨幂 , 毕业院校 , 2005 届北京

电影学院 ]。由图可知，GPT-4 并没有成功抽取出这两组信息。究其原因可

能是数据集本身的信息指向性不够明确，导致 GPT-4 所关注的信息产生偏

差。但只关注 GPT-4 本身给出的答案，我们仍可以在一定程度上认为 GPT-4

在三元组抽取上具有不错的表现。

2. One-shot

▪ ChatGPT VS GPT-4

内容反馈

苍穹一梦

粉丝: 828
资源: 2468

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip