瞬间清醒!
Go ogle 的 Yi Tay (and Mostafa) 团队提 出了 一个 新的 策略 Mixture-of-Denoisers, 统一 了
各大预 训 练 范 式 。
重新思考现在的预训练精调,我们有各种各样的预训练范式: decoder-only or encoder-d
ecoder , span corruption or language model , 等等, 不同的范式建模了不同的上下文
关系,也正是因为如此,不 同 的 预 训 练 范 式 适 配 不 同 类 型 的 下 游 任 务 。例如,基于双向上下
文 的 预 训 练 (span corruption , 如 T5) 更 加 适 用 于 fact completion , 基 于 单 向 上 文
(P refixLM/LM,如GPT等)更加适用于 open ended. 也就是说,具 体 的 下 游 任 务 类 型 需 要 选
用 特 定 的 预 训 练 策 略 ...
准确地说,常见有三套范式:单向文本建模的CausalLM(i.e. LM),双向文本建模的 span
corruption, 前缀文本建模的 PrefixLM.