MIT发现语言模型内的事实知识可被修改？？资源-CSDN文库

共1个文件

pdf：1个

版权申诉

104 浏览量 2023-10-13 17:56:44 上传评论收藏 922KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

MIT发现语言模型内的事实知识可被修改？？.rar （1个子文件）

MIT发现语言模型内的事实知识可被修改？？.pdf 1.04MB

2023/6/28 16:54

MIT发现语言模型内的事实知识可被修改？？

https://mp.weixin.qq.com/s/R-NCJtFONYbN5jvsZiGaWA

1/7

MIT发现语言模型内的事实知识可被修改？？

文  | 小伟

前言

众所周知，自回归语言模型( 如GPT-2) 里存储着大量的事实知识，比如语言模型可以正确的预

测出埃菲尔铁塔所在的城市是巴黎市。

那么语言模型是在什么地方存储这些知识呢？我们是否可以修改存储在语言模型里的知识

呢？

来自于MIT的这篇文章就对这些问题做出了解答。

它发现GPT中的事实知识对应于可以直接编辑的局部计算。通过对GPT的一小部分参数进行

小的改变就可以修改其内部的知识，实现我们把埃菲尔铁塔搬到英国的小目标 :)

论文标题:

Locating and Editing Factual Associations in GPT

论文链接:

https://arxiv.org/abs/2202.05262

概览

小伟 2022-11-28 12:05 发表于北京

原创

夕小瑶科技说

2023/6/28 16:54

MIT发现语言模型内的事实知识可被修改？？

https://mp.weixin.qq.com/s/R-NCJtFONYbN5jvsZiGaWA

2/7

首先，什么是语言模型里的知识呢？我们可以用三元组 (s,r,o) 来代表这些事实知识，其中 s

和 o 分别是主体和客体，r 代表它们之间的关系。例如：

(s = Kevin Durant, r = plays sport professionally, o = basketball)

就表明了杜兰特是一名职业篮球运动员这一事实。

其次，为什么需要定位以及修改语言模型里的知识呢？显而易见，它可以帮助我们很容易地更

新改正语言模型中存在的过时或者错误的知识。例如关于川普已经过时了的知识:

(s = Donald Trump, r = is President of, o = the US)

可以看到对语言模型里的知识进行定位和修改还是蛮有用的，让语言模型可以与时俱进。

那么本文具体是用什么方法来实现目标的呢？下面让我们一起来一探究竟。

定位

为了定位语言模型中的知识，本文采用了因果追踪的方法来量化每个隐藏状态对模型预测的因

果影响。为了计算每个隐藏状态对正确的事实知识预测的贡献，本文设计了3种不同的运行模

式：

干净模式 : 将输入正常喂给模型得到输出

干扰模式 : 给输入的embedding加上高斯分布的噪声来得到被干扰的输出

干扰后恢复模式 : 给输入的embedding加上高斯分布的噪声,同时调整模型在某一层的某个

token index处的状态为对应的干净模式中的状态。直觉上来看，在许多其他状态被干扰

的情况下，一些干净状态恢复正确事实的能力将表明它们在计算图中的因果重要性。

通过把干扰模式以及干扰后恢复模式的输出进行对比 ( 在本文中定义为 average indirect

effect)，我们就可以知道模型的不同组成部分对最终模型预测的因果影响。

2023/6/28 16:54

MIT发现语言模型内的事实知识可被修改？？

https://mp.weixin.qq.com/s/R-NCJtFONYbN5jvsZiGaWA

3/7

如上图所示，我们可以看到 MLP 模块在早期起到了决定性的作用 (MLP 6.6% AIE vs.

attention 1.6% AIE)，而attention模块则是在最后一个token处比较重要。

基于因果追踪的结论以及过往的工作，作者提出了一种存储事实知识的特定机制: 早期的 MLP

模块进行知识检索，然后后期的注意力机制将累积的信息带到计算结束 (最后一个 to ken)

处来预测输出。

修改

现在我们已经知道了事实知识主要存储在早期的MLP 中，那我们应该怎么样来修改这些知识

呢？本文引入了 Rank-OneModelEditing (一阶模型编辑 ) 来修改模型里的知识。

具体来说, 一阶模型编辑(ROME) 把MLP 视为简单的键值存储:如果键编码主体，值编码和主体

相关的知识，MLP就可以通过检索与键对应的值来获取相应的知识。

在本文中，ROME 使用针对 MLP参数的一阶编辑来直接写入新的键值对，也就是为模型注入

新的知识。如上图所示，(d) 处的向量表示要插入的主体的键，而 (e) 处的输出编码了有

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 633

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip