文 | pyt hon
近年来,大规模预训练语言模型给自然语言处理领域带来了翻天覆地的变化。
一提到预训练模型为什么好,标准回答往往是:利用了无标注自监督学习数据,习得了语言学
与语义知识,并有效迁移到下游任务中。
然而,预训练模型究竟如何运用预训练过程中记住的内容呢?
本文作者借助英文习语生成任务,探秘预训练模型的记忆唤起机制。
作者发现,在记忆唤起中,底层结构存储与检索可能的表达组合,并形成若干候选,而上层结
构会进一步强化模型的信心。
论 文 题 目 :
UnderstandingTransformerMemorization Recall ThroughIdioms
论 文 链 接 :
https://arxiv.org/abs/2210.03588
https://github.com/adihaviv/idiomem/
习语生成检测
为了探索预训练模型运用记忆的方式,首先需要找到一种上下文无关的生成文本。否则,无法