"Prompt Tuning新工作,五个参数解决下游任务 Fine-tuning"
Prompt Tuning 是一种新的 Fine-tuning 方法,它可以通过调整仅仅五个参数来解决下游任务的 Fine-tuning 问题。这种方法可以将预训练模型应用于各种下游任务,但其泛化能力的背后原因是什么?预训练模型是如何学习到低维本征子空间的?
本文从近来的 Prompt Tuning 工作出发,对这个问题进行了初步的探索。作者发现,预训练模型在各类下游任务上泛化的过程其实就是在优化各类任务的公共低维本征子空间(common low-dimensional intrinsic task subspace)中的非常少量的几个自由参数。为了证明这个观点,作者在100多个 few-shot 任务上进行了实验,发现仅仅优化低维子空间中的 5个自由参数,就可以获得 full prompt tuning 87% 的性能。
那么,何为“任务的公共低维本征子空间”?作者是如何论证得到上述结论的?在下文中我们将为大家仔细解读。
作者基于之前的工作提出了一个基本的假设:预训练模型在不同下游任务上学习的过程,可以被重新参数化(reparameterized)为在同一个低维本征子空间上的优化过程。基于这个假设,作者提出了探索公共低维本征子空间的方法:intrinsic prompt tuning (IPT)。IPT 由两个阶段组成:Multi-task Subspace Finding (MSF):寻找多个任务的公共子空间,这是一个低维的、本征的空间;Intrinsic Subspace Tuning (IST):在找到的公共本征子空间上进行模型优化。
IPT 作者使用 intrinsic prompt tuning (IPT) 来验证本文的基本假设:预训练模型对多个不同下游任务的学习可以被重新参数化为在同一个低维本征子空间上的优化。在第一个阶段是 multi-task subspace finding (MSF),旨在通过对多个任务进行学习,来找到公共的低维本征子空间。在这个阶段中,我们使用自编码器来学习公共低维本征子空间的最终目标是为了解决多个任务,所以作者引入了面向任务的语言模型loss 来提供任务相关的监督。
在第二个阶段是 intrinsic subspace tuning (IST),我们想评价我们在 MSF 阶段中找到的低维本征子空间是不是能够很好的泛化到 (a) MSF 阶段训练过的任务的新数据,以及 (b) MSF 阶段没有训练过的任务。如果该低维本征子空间在这两种情况下都有比较好的泛化性能的话,那么在我们在一定程度上就成功地找到了想要的本征子空间。
实验作者使用了 120 个 few-shot 任务来进行实验,并进行了三种实验设置的比较。实验结果表明,IPT 方法可以获得很好的泛化性能,并且证明了预训练模型可以通过学习公共低维本征子空间来泛化到各种下游任务。