喜欢此内容的⼈还喜欢
刷新SOTA!Salesforce提出跨模态对⽐学习新⽅法,仅需4M图像数
据!
⽂ | ⼦⻰
多模态已经不是⼀个新鲜的话题,如何在⼀个模型中融合CV和NLP的信息同时吸引了两个领
域的⽬光(CV、NLP的会都能投),但是很容易就能想到,来⾃图⽚的视觉特征和来⾃语料
的⽂本特征来⾃不同的模型,所隐含的信息很难放到同⼀个隐状态空间中,于是特征融合
Fuse成为众多模型所关注的重点。与此同时,多模态的初衷是通过描述相似对象的语料和图
⽚互相促进,进⽽提升效果,那么怎么才能获得“描述相似对象”的标注呢?这⼜是多模态⾯临
的另外⼀个问题特征对⻬Align。
今天的⽂章 Align before Fuse: Vision and Language Representation Learning
with Momentum Distillation 探索了如何解决多模态中极为重要的两个问题,作者通过图
⽚ - ⽂本对⽐学习、图⽚- ⽂本匹配、掩码语⾔模型,三个预训练任务,并提出动量蒸馏
Momentum Distillation对抗数据噪⾳、改进训练过程,在多个任务上刷新了SOTA。
论⽂题⽬:
Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation
论⽂链接:
https://arxiv.org/abs/2107.07651
介绍
这⽚⽂章开宗明义,题⽬中就涵盖了⽂章的重点:对⻬Align+融合Fuse,正是多模态所关注
的重点,作者将模型称作ALBEF(ALign BEfore Fuse),即现将相关的部分“对⻬”,再进⾏融
合。
具体模型如下图:
从图中可以清晰地看到模型的结构,图⽚和⽂本分为“双流”分别处理。这⾥为了减⼩图⽚特征
和⽂本特征的差异,作者采⽤基于Transformer的ViT提取图⽚特征,⽽不是传统的基于CNN
的模型,这也得益于最近CV届对Transformer解决视觉问题对探索。作者在⽂本⽅⾯依旧采⽤
了颇为传统的BERT,有趣的是原本12层的BERT在这⾥做了分割,前6层作为单模态处理阶段
(text encoder),后6层放到了多模态处理阶段(multimodal encoder)。在多模态处理阶段,
⽂本每层先通过self-attention,再通过cross-attention和视觉特征相融合。
模型结构并不复杂,都是我们⼗分熟悉的结构,但是作者基于这样简单的结构配合多种预训练
任务,使得模型中多模态任务上有着出⾊的表现。
动量模型Momentum Model
⾸先是“动量模型”,乍⼀看这个名称⼗分新奇,是标题中所谓“动量蒸馏”的⼀部分。在知识蒸
馏中,有两个⻆⾊:“教师”和“学⽣”,核⼼⽬的就是让学⽣模型模仿教师模型,得到相似的结
果,⽽学⽣模型往往相⽐教师模型有着不少优越性,⽐如更少的参数、更快的速度等等。教师
模型有多种,较为直观的是教师模型选择庞⼤的预训练模型,⽽学⽣模型选择⼩⽽快的模型,
⽽本⽂中采⽤了另外⼀种“在线⾃蒸馏(online self-distillation)”的蒸馏⽅法,将训练过程中的
学⽣模型作滑动平均作为教师,这样能够有效对抗数据集中的噪⾳,因为此时的教师模型作为
多个模型的集成,能够更好地对抗噪声。
图⽚-⽂本对⽐学习(ITC)
这⾥的“对⽐学习”是为了让图⽚和⽂本更好地对应,实现⽅法是通过给定⽂本特征或者视觉特
征,再给定若⼲另外⼀种特征,在其中选择与之对应的那⼀个,“正样例”相对简单,即为数据
集中的图⽚- ⽂本对,那么如果得到“ 负样例” 呢?这⾥作者维护了⼀个⼤⼩为M 的 “ 队列
Queue”,储存动量模型最新得到的M个特征(因为动量模型是随着训练步数,逐步迭代更新
的)。两个特征之间的相似度或者评分 通过向量点乘计算。
标记本身模型得到的视觉特征为 、⽂本特征为 ,动量模型得到的第m个视觉特征为 、⽂
本特征为 。
其中 与 分别为one-hot label,即唯⼀的正样例为1,其余负样例为0, 是交
叉熵。
掩码语⾔模型(MLM) 与 图⽚-⽂本匹配(ITM)
这两个预训练任务⽐较简单。掩码语⾔模型由BERT提出,将部分单词mask,并通过上下⽂预
测其原本单词。
其中 为mask后的⽂本特征, 是one-hot label,⻓度等于单词表,mask对应的单词位置
为1,其余为0。
图⽚⽂本匹配与图⽚⽂本对⽐学习⽬的类似,不同点在于,这⾥是通过多模态阶段
(multimodal encoder)的[CLS]输出,预测当前输⼊的图⽚和⽂本是否匹配,即⼀个⼆分类问
题。
动量蒸馏Momentum Distillation
本⽂所采⽤的预训练数据集来⾃⽹络,图⽚-⽂本对本身充满噪⾳,结果导致所谓的“正样例”中
⽂本与图⽚相关度不⾼,⽽所谓的“负样例”有⼀定概率⽂本和图⽚有⼀定相似度。于是,为了
对抗数据集中的噪声,作者提出动量蒸馏,动量蒸馏的核⼼是上⽂已经介绍过的动量模型,动
量模型的结果也在图⽚-⽂本对⽐学习中⽤到,但是作者进⼀步地将动量模型的结果运⽤于损
失函数中。
可以看出,在图⽚-⽂本对⽐学习中,交叉熵函数实际上在将图⽚-⽂本相似度的分布 与
ground truth 相拟合,在掩码语⾔模型中,交叉熵函数实际上在将掩码后的多模态特
征 与groud truth 相拟合。但是,正如⽂章分析的,训练数据存在噪声,这⾥
所谓的ground truth并不完美,于是作者利⽤从动量模型中得到的分布完善原本的图⽚-⽂本相
似度分布和掩码多模态特征分布。
⾸先需要得到动量模型中的分布,作者采⽤了⼗分简单的⽅法,⽤动态模型各个特征归⼀化,
代替原本模型的特征计算概率分布。在图⽚- ⽂本对⽐学习中,动量模型特征的分布如下计
算:
其中只将 改为 ,这⾥新的 中,归⼀化后的动量模型输出特征取代了原本模型得到的特征。
新的损失函数为:
和图⽚-⽂本对⽐学习类似, 是动量模型预测掩码单词的概率分布,新的损失函数
为:
其中KL为KL散度。
实验
介绍完模型,接下来看看模型的表现,ALBEF 共完成了Image-text Retrieval 、 Visual
Entailment 、 Visual Question Ansering 、 Natural Language for Visual Resoning 、
Visual Grounding五⼤任务,每个任务上,ALBEF都取得了SOTA的好成绩,由于篇幅有限,
这⾥着重介绍Visual Grounding。
Visual Grounding需要模型根据⼀段⽂字描述定位图⽚中的某个区域,先通过图⽚直观感受⼀
下ALREF的强⼤!
从图⽚中可以看出,⽂字和需要对应的部分匹配的⼗分准确,从预测正确的准确率我们也可以
看出ALBEF遥遥领先,各个不同的场景下超出baseline 20%~30%多准确率。
⼩结
可⻅,先对⻬再融合的思路符合多模态任务的需求,让模型能够更好的利⽤多模态的信息,这
解释了ALBEF在诸多多模态理解任务中的出⾊表现,同时从Visual Grounding任务中可以看
出,ALBEF提出的预训练任务确实使得模型学会了图⽚信息和⽂本信息的对应关系,这也为后
续研究提供了启发。
萌屋作者:⼦⻰(Ryan)
本科毕业于北⼤计算机系,曾混迹于商汤和MSRA,现在是宅在UCSD(Social Dead)的在读
PhD,主要关注多模态中的NLP和data mining,也在探索更多有意思的Topic ,原本只是贵公
众号的吃⽠群众,被各种有意思的推送吸引就上了贼船,希望借此沾沾⼩屋的灵⽓,
paper++,早⽇成为有猫的程序员!
作品推荐:
1.别再搞纯⽂本了!多模⽂档理解更被时代需要!
2.Transformer哪家强?Google爸爸辨优良!
3.预训练语⾔真的是世界模型?
后台回复关键词【⼊群】
加⼊卖萌屋NLP/IR/Rec与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各⼤顶会论⽂集!
我
书
读
得
多
,
不
会
骗
你
若被制裁,中国AI会雪崩吗?
夕⼩瑶的卖萌屋
微信扫⼀扫
关注该公众号
⼦⻰ 2021-08-05 12:23
原创
夕⼩瑶的卖萌屋