作者表明,在预训练阶段采⽤不同的随机数种⼦,对模型表现稳定性有较为明显的影响。如下
表所示。这⾥统计的是下游任务中,样例级别(instance-level)的⼀致率。Same表示采⽤
相同的预训练种⼦,Diff.表示采⽤不同的预训练种⼦。从表中可以看出,预训练时使⽤相同的
随机数种⼦,模型在下游任务中保持有较⾼的⼀致率(90%以上);⽽如果预训练时采⽤不同
的随机数种⼦,下游任务的预测⼀致率会有1%~2%的下降。这⼀下降在HANS[2] (⼀个
MNLI相关的对抗样本数据集)上表现得更为明显,可以达到 4%~7% 。
特别地,25个预训练随机数种⼦下,BERT模型在HANS(neg)[2]上的表现,如下图所示。可
以看到,随着预训练中随机数种⼦的变化,模型在下游任务上的准确率可以有超过20%的波
动。远⼤于同预训练种⼦的10%以内的准确率波动。因此,你的论⽂的实验结论可能仅在⼀个
BERT的随机种⼦下成⽴。更换预训练种⼦之后,结论可能不再成⽴。我们也可以由此看到,
利⽤不同随机数种⼦下BERT预训练的结果,对探究实验结论的鲁棒性⼗分必要。
Multi-Bootstrap
基于多种⼦结果的⾃举评估⽅法
有了不同的种⼦下训练的BERT结果:MultiBERTs,作者进⼀步提出了 Multi-Bootstrap ⽅
法,以⾃举(Bootstrap)策略对模型的鲁棒性与结论的随机性做⾮参数估计。
⾃举(Bootstrap)听上去很⽞幻。据⼩编的理解,这种⽅法就是⼀个对数据进⾏采样均值的
过程。具体⽽⾔,我们先从预训练随机数种⼦中,有放回地采样 个种⼦ 。
然后,同样有放回地,从测试数据中,采样 个测试点:
记 为种⼦ 下的模型映射, 为打分函数,于是模型表现的估计量为:
通过多次采样,我们可以得到 的期望及标准差的估计(estimation),并⽤这个估计对实验结论
的鲁棒性进⾏评估。
如果评估还涉及到下游任务的随机数种⼦,在上⾯的采样均值过程中,再加⼀层对下游任务的
随机数种⼦采样均值即可。
具体的应⽤形式,可以分成以下4种:
对⽐基线:将基于MultiBERTs的结果同固定基线进⾏对⽐。这⾥的固定基线可以是随机结
果、⼈类表现、或原版BERT没有对随机数种⼦做采样的结果等。
成对采样:对⽐同⼀组预训练结果之下的结果,⽐如均是基于MultiBERTs,探究添加的某
个魔改结构是否有帮助。在这种采样中,对待对⽐的两个模型的随机数种⼦部分采⽤同样
的采样策略。
不成对采样:⼀般⽤于不可成对采样的场景。如对⽐MultiBERTs及某个类似的
“MultiRoBERTas”之间的性能差异。因为两种模型并不共享预训练结果的检查点
(checkpoints),采样时分别对两边的种⼦进⾏采样。
假设检验(P-Values):可以去计算有多⼤⽐例的采样结果,得到的表现估计量 超过基
线⽔平。
实战示例
作者在实现MultiBERTs 时观察到两个现象:更多的预训练步数普遍带来更好的表现;
MultiBERTs 的表现在SQuAD上⽐原始BERT要好。作者将Multi-Bootstrap应⽤在对这两个问
题的探究上,以体现该⽅法的有效性。
更多的预训练步数可以取得更好的效果吗?(成对采样)
⼀般⼈们认为预训练模型迭代步数越多,模型的表现就越好。作者在训练MultiBERTs时也发
现了类似的现象。那这⼀结论是否具有统计学意义?作者这⾥采⽤成对采样策略的Multi-
Bootstrap⽅法,对⽐迭代2M步和1M步预训练的BERT模型,在下游GLUE任务上的表现。
对⽐如下图,可以看到,对于MNLI任务⽽⾔,更多的迭代步数会显著带来性能提升,p-
value<0.001。⽽对于MRPC、RTE等任务⽽⾔,更多的预训练步数对下游任务的提升就值得
怀疑了,p-value分别只有0.564和0.141。
利⽤成对采样的策略可以进⼀步看出,虽然MNLI任务上,1M和2M迭代步数的预训练模型性
能分布有较为明显的重叠。但两者具有较为明显的相关性,即在同⼀随机种⼦下,2M迭代的
模型表现有很⼤概率⾼于1M迭代的模型。这导致了极⾼的显著性。
MultiBERTs 的表现在SQuAD上⽐原始BERT要好?(对⽐基线)
类似地,作者也对⽐了MultiBERTs和原版BERT在SQuAD2.0任务上的性能差异。结果表明,
MultiBERTs性能超过原版BERT的p-value<0.001,具有极⾼的显著性。
因为原版BERT没有提供随机种⼦,所以作者建议在这种模型下,同时汇报性能差异的95%置
信区间。MultiBERTs⽐原版BERT在SQuAD2.0任务上的性能提升量的95%置信区间为提升
1.9%~2.9%。
开放问题
论⽂作者指出,有了MultiBERTs,研究者还可以在替换预训练过程中的随机数种⼦的前提
下,进⼀步探索下⾯这些结论:
是否仅有Google原版BERT能编码句法信息、世界知识?
是否仅有Google原版BERT包含了社会偏⻅(social stereotypes)?
RoBERTa等模型,是否只超过了Google原版的BERT?
引⼊NLI等中间训练任务,是否可以对下游任务带来稳定提升?
减少attention头的数量,是否稳定影响下游任务表现?
BERT中引⼊语义⻆⾊信息是否可以稳定提升下游任务效果?
坑挖好了,⼯具也有了,问题也提出了,⼩伙伴们还等什么?还不赶紧把代码跑上,灌上⼀
波?(ง •
!
_•
"
)ง
后台回复关键词【⼊群】
加⼊卖萌屋NLP/IR/Rec与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各⼤顶会论⽂集!
[1] Iulia Turc, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. Well-read students learn
better: On the importance of pre-training compact models. arXiv preprint arXiv:1908.08962.
[2] Tom McCoy, Ellie Pavlick, and Tal Linzen. 2019. Right for the wrong reasons: Diagnosing syntactic
heuristics in natural language inference. In Proceed- ings of the 57th Annual Meeting of the
Association for Computational Linguistics, pages 3428–3448, Florence, Italy. Association for
Computational Lin- guistics.