喜欢此内容的⼈还喜欢
Facebook 推出多模态通⽤模型 FLAVA,吊打 CLIP 平均⼗个点!
⽂ | ⼦⻰
编 | 智商掉了⼀地
厉害了!作者将单⼀模型运⽤于三个不同领域的不同任务,结构简单且训练直观,还能有
着出⾊的表现。
⾃Transformer横空出世,从NLP到CV,再到今天的多模态,⽆数基于Transformer的模型被
应⽤于各类任务,似乎真的印证了当年⽂章的标题“Transformer is ALL you need”。然⽽,
纯粹的NLP任务有BERT、RoBERTa,CV任务有ViT,多模态任务⼜有VLBERT、OSCAR,
虽然都是基于Transformer的结构,但是仍然是针对不同任务设计不同模型,那么“ 万能” 的
Transformer能否构建出⼀个统合各类任务的模型,实现真的的⼀个模型解决所有问题呢?
今天⽂章的作者就关注到了当前各个模型的局限,提出了⼀个适⽤于NLP+CV+多模态的模型
FLAVA,可运⽤于三种领域共计35个任务,且都有着出⾊的表现。
论⽂题⽬:
FLAVA: A Foundational Language And Vision Alignment Model
论⽂链接:
https://arxiv.org/abs/2112.04482
介绍
⽂章标题中,作者称模型为“Foundational”,他们不希望借助各种奇技淫巧的Tricks,⽽是通
过尽可能简单的结构,配合直观的的训练⼿段,达到涵盖NLP、CV、多模态的⽬的。
FLAVA基于三种不同的输⼊:
匹配的图⽚-⽂本
单独⽂本
单独图⽚
解决三个领域的问题:
NLP:语⾔理解(如GLUE)
CV:视觉识别(如ImageNet)
多模态:多模态解释(如VQA)
图⽚编码器(Image Encoder)
FLAVA直接借⽤既有模型ViT的结构,同时仿照ViT的处理⽅法,分割图⽚进⾏编码。在ViT输
出的隐状态上,FLAVA利⽤单⼀模态数据集中的图⽚进⾏Masked Image Modeling。⾸先,
利⽤dVAE将图⽚转化为类似词向量的token;再参照BEiT,对masked隐状态进⾏分类,即利
⽤周围图⽚分块,预测masked的图⽚属于dVAE划分的哪⼀类,这样在图⽚上也可以像BERT
那样做mask modeling。
⽂本编码器(Text Encoder)
FLAVA在⽂本部分多处理就相对简单,作者采取常⻅的Masked Language Modeling,对⼀
部分masked token进⾏预测,和其他⽅法对区别在于,FLAVA没有采⽤BERT之类纯⽂本语
⾔模型的结构,⽽是和图⽚编码器⼀样,使⽤了ViT的结构,不过因为是不同的模态,⾃然采
⽤了不同的模型参数。
多模态编码器(Multimodal Encoder)
在图⽚编码器和⽂本编码器之上,FLAVA添加了⼀层多模态编码器做模态融合,多模态编码器
将前两者输出的隐藏状态作为输⼊,同样利⽤ViT的模型结构进⾏融合。
多模态预训练
在⽂本编码器和图⽚编码器中,FLAVA在单⼀模态上进⾏了预训练,在多模态预训练⽅⾯,
FLAVA使⽤了三种多模态预训练任务:
对⽐学习:FLAVA利⽤图⽚编码器和⽂本编码器的隐藏状态,增⼤相匹配的图⽚-⽂本对之
间的余弦相似度,减⼩⾮匹配的图⽚-⽂本对之间的余弦相似度。
Masked Multimodal Modeling:与图⽚编码器上的MIM类似,只不过改为利⽤多模态编
码器的隐状态进⾏预测。
图⽚-⽂本匹配:与许多现有模型⼀样,FLAVA利⽤多模态编码器的[CLS]的隐状态,识别
当前图⽚与⽂本是否匹配。
效果
从上述模型细节可以看出,⽆论是模型结构,还是预训练任务,⽂本与图⽚之间⾼度对称,同
时也设计也⼗分直观。接下来看看在35个任务上的表现。
图中下划线表示最优结果,加粗表示在公开数据集上训练的最优结果。
从各个任务平均上看,FLAVA能够取得整体上的最优结果,多模态任务平均⽐CLIP⾼出2个百
分点左右,整体平均⽐CLIP⾼出10个百分点左右。从具体任务上看,在不少任务上都取得了
⼗分显著的提⾼,如STS-B数据集提⾼了69.69,MNLI数据集提⾼了46.81。
⼩结
不同于现有模型,FLAVA最⼤的特点,也可以说是创新点,在于作者实现了将单⼀模型运⽤于
三个不同领域的不同任务,⽽且都有着不错的效果,虽然FLAVA并没有奇迹般在所有任务上都
达到SOTA,但是整体性能上并不弱于现有模型,同时有着更⼴阔的运⽤场景,模型设计也没
有各种奇技淫巧,这对未来研究通⽤模型有着很⼤的启发。
萌屋作者:⼦⻰(Ryan)
本科毕业于北⼤计算机系,曾混迹于商汤和MSRA,现在是宅在UCSD(Social Dead) 的在读
PhD,主要关注多模态中的NLP和data mining,也在探索更多有意思的To p ic ,原本只是贵公
众号的吃⽠群众,被各种有意思的推送吸引就上了贼船,希望借此沾沾⼩屋的灵⽓,
paper++,早⽇成为有猫的程序员!
作品推荐:
1.别再搞纯⽂本了!多模⽂档理解更被时代需要!
2.Transformer哪家强?Google爸爸辨优良!
3.预训练语⾔真的是世界模型?
后台回复关键词【⼊群】
加⼊卖萌屋NLP/IR/Rec与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各⼤顶会论⽂集!
如何在⾃动驾驶的视觉感知中检测极端情况?
3D视觉⼯坊
致敬CondConv!英特尔提出即插即⽤的“万⾦油”动态卷积ODConv
AI科技评论
模型⼤⼗倍,性能提升⼏倍?⾕歌研究员进⾏了⼀番研究
磐创AI
微信扫⼀扫
关注该公众号
⼦⻰ 2022-01-05 12:05
原创
夕⼩瑶的卖萌屋