预训练模型对实体的表示能力差？一个简单有效的解法来了！（开源资源-CSDN文库

共1个文件

pdf：1个

版权申诉

163 浏览量 2023-10-13 17:58:41 上传评论收藏 1.47MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

预训练模型对实体的表示能力差？一个简单有效的解法来了！（开源）.rar （1个子文件）

预训练模型对实体的表示能力差？一个简单有效的解法来了！（开源）.pdf 1.57MB

2023/6/28 22:37

预训练模型对实体的表示能力差？一个简单有效的解法来了！（开源）

https://mp.weixin.qq.com/s/HXMU_IZAReEgfNi42Y8mIA

1/7

预训练模型对实体的表示能力差？一个简单有效的解法来了！（开

源）

收录于合集

#卖萌屋@自然语言处理

97个

文  | 小轶

今天给大家介绍一篇 ACL'22 的论文，来自清华大学刘知远老师组。本文解决的问题是如何在

预训练语言模型中引入任务所需的实体知识。此前常见的解决方法大致可以分为两种。

一种是在领域相关的语料上再做 further pretraining，比如 BioBERT。这种方法的缺点主要在

于需要大量的额外训练，V100 上的训练时长可达数千小时。

另一种是直接引入知识图谱，比如 ERNIE。本文则认为：使得预训练模型具备实体知识，可以

不完全依赖于引入外部知识图谱。已经有许多相关工作证明预训练模型自身就具备存储知识

的能力，我们需要的只是一种调用出模型知识存储的方法。于是本文就提出了一种轻量的方

法 PELT，能够非常简单有效的达到引入实体知识的效果。

论文标题：

A Simple but Effective Pluggable Entity Lookup Table for Pre-trained Language Models

论文链接：

https://arxiv.org/pdf/2202.13392.pdf

小轶 2022-04-05 12:05

原创

夕小瑶科技说

2023/6/28 22:37

预训练模型对实体的表示能力差？一个简单有效的解法来了！（开源）

https://mp.weixin.qq.com/s/HXMU_IZAReEgfNi42Y8mIA

2/7

代码链接：

https://github.com/thunlp/P ELT

方法

本文方法的核心在于如何获取一个好的实体嵌入（ entity embedding），使得这个中包含

该实体必要的相关知识。获得实体嵌入后，在下游任务使用预训练模型时，只需要在输入中该

实体出现的位置加入其相应的 embedding，即可达到引入相关知识的效果。

接下来我们逐步看一下，本文的方法是如何构造实体嵌入的，以及如何在使用预训练模型时加

入实体嵌入。最后，简单从理论角度分析一下本文方法的合理性。

构建实体嵌入

假定我们需要在某个下游任务使用某个预训练语言模型，而该下游任务中可能会出现一些其所

在领域所特有的实体。我们当前的目标就是：为这些实体构建一个高质量的实体嵌入。

▲PELT 构建实体嵌入信息的过程

本文获取实体嵌入的方法非常简单。上图以实体 COVID-19 为例，说明了构建其嵌入的过

程：

1. 找到语料库中所有出现  COVID-19 的句子集合  （这个语料库是 domain-specific

的）

2. 把这些句子中出现 COVID-19 的位置 MASK 掉。

3. 保留预训练语言模型把 MASK位置对应的  output 表示向量，记为 ( )

4. 最后得到实体嵌入表示如下 :

2023/6/28 22:37

预训练模型对实体的表示能力差？一个简单有效的解法来了！（开源）

https://mp.weixin.qq.com/s/HXMU_IZAReEgfNi42Y8mIA

3/7

其中，是一个常数。原文中说，这个常数具体取什么值对于结果影响不大（“has little

effect on the input feature of the encoder in use”）。

实际操作时，作者将所有实体嵌入的长度都设置为，即。然后在实验中，尝试了多

个的值（ =1,2,..,10），看哪一个在下游任务上效果好就用哪个。

在预训练模型中融入实体知识

接下来的问题就是，在得到实体嵌入后，在预训练模型做下游任务时使用它。方法也非常简

单。

加入某个样本输入中出现了实体。还是假设该实体为 COVID-19，然后原始输入样本为：

Most people with COVID-19 have a dry...

在本文所提出的方法中，我们只需要在那个实体后面加个括号，括号中重复一遍该实体。

Most people with COVID-19（COV ID-19） have a dry...

在映射到 embedding layer 的时候，不在括号里的实体COVID-19采用普通的词嵌入处理方式

（切成 subword ，然后映射到预训练模型所学的 word embedding ）；而括号中的实体

COVID-19 则映射为相应的实体嵌入。

方法合理性的理论支持

原文有从理论分析的角度解释所提出方法的合理性。整个证明过程也比较简单，可以一看（不

过我其实还没太想清楚这个证明过程是否足够完善...）。

假设我们把某个实体加入了预训练模型的原有词表中。如果我们用预训练任务 MLM 来学习

它的实体嵌入，它的损失函数如下所示：

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 633

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip