Facebook推出多模态通用模型FLAVA，吊打CLIP平均十个点！.rar

共1个文件

pdf：1个

版权申诉

NLP

深度学习

193 浏览量 2023-10-18 18:05:59 上传评论收藏 2.39MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

Facebook 推出多模态通用模型 FLAVA，吊打 CLIP 平均十个点！ .rar （1个子文件）

Facebook 推出多模态通用模型 FLAVA，吊打 CLIP 平均十个点！ .pdf 2.45MB

喜欢此内容的⼈还喜欢

Facebook 推出多模态通⽤模型 FLAVA，吊打 CLIP 平均⼗个点！

⽂ | ⼦⻰

编 | 智商掉了⼀地

厉害了！作者将单⼀模型运⽤于三个不同领域的不同任务，结构简单且训练直观，还能有

着出⾊的表现。

⾃Transformer横空出世，从NLP到CV，再到今天的多模态，⽆数基于Transformer的模型被

应⽤于各类任务，似乎真的印证了当年⽂章的标题“Transformer is ALL you need”。然⽽，

纯粹的NLP任务有BERT、RoBERTa，CV任务有ViT，多模态任务⼜有VLBERT、OSCAR，

虽然都是基于Transformer的结构，但是仍然是针对不同任务设计不同模型，那么“ 万能” 的

Transformer能否构建出⼀个统合各类任务的模型，实现真的的⼀个模型解决所有问题呢？

今天⽂章的作者就关注到了当前各个模型的局限，提出了⼀个适⽤于NLP+CV+多模态的模型

FLAVA，可运⽤于三种领域共计35个任务，且都有着出⾊的表现。

论⽂题⽬:

FLAVA: A Foundational Language And Vision Alignment Model

论⽂链接:

https://arxiv.org/abs/2112.04482

介绍

⽂章标题中，作者称模型为“Foundational”，他们不希望借助各种奇技淫巧的Tricks，⽽是通

过尽可能简单的结构，配合直观的的训练⼿段，达到涵盖NLP、CV、多模态的⽬的。

FLAVA基于三种不同的输⼊：

匹配的图⽚-⽂本

单独⽂本

单独图⽚

解决三个领域的问题：

NLP：语⾔理解（如GLUE）

CV：视觉识别（如ImageNet）

多模态：多模态解释（如VQA）

图⽚编码器(Image Encoder)

FLAVA直接借⽤既有模型ViT的结构，同时仿照ViT的处理⽅法，分割图⽚进⾏编码。在ViT输

出的隐状态上，FLAVA利⽤单⼀模态数据集中的图⽚进⾏Masked Image Modeling。⾸先，

利⽤dVAE将图⽚转化为类似词向量的token；再参照BEiT，对masked隐状态进⾏分类，即利

⽤周围图⽚分块，预测masked的图⽚属于dVAE划分的哪⼀类，这样在图⽚上也可以像BERT

那样做mask modeling。

⽂本编码器(Text Encoder)

FLAVA在⽂本部分多处理就相对简单，作者采取常⻅的Masked Language Modeling，对⼀

部分masked token进⾏预测，和其他⽅法对区别在于，FLAVA没有采⽤BERT之类纯⽂本语

⾔模型的结构，⽽是和图⽚编码器⼀样，使⽤了ViT的结构，不过因为是不同的模态，⾃然采

⽤了不同的模型参数。

多模态编码器(Multimodal Encoder)

在图⽚编码器和⽂本编码器之上，FLAVA添加了⼀层多模态编码器做模态融合，多模态编码器

将前两者输出的隐藏状态作为输⼊，同样利⽤ViT的模型结构进⾏融合。

多模态预训练

在⽂本编码器和图⽚编码器中，FLAVA在单⼀模态上进⾏了预训练，在多模态预训练⽅⾯，

FLAVA使⽤了三种多模态预训练任务：

对⽐学习：FLAVA利⽤图⽚编码器和⽂本编码器的隐藏状态，增⼤相匹配的图⽚-⽂本对之

间的余弦相似度，减⼩⾮匹配的图⽚-⽂本对之间的余弦相似度。

Masked Multimodal Modeling：与图⽚编码器上的MIM类似，只不过改为利⽤多模态编

码器的隐状态进⾏预测。

图⽚-⽂本匹配：与许多现有模型⼀样，FLAVA利⽤多模态编码器的[CLS]的隐状态，识别

当前图⽚与⽂本是否匹配。

效果

从上述模型细节可以看出，⽆论是模型结构，还是预训练任务，⽂本与图⽚之间⾼度对称，同

时也设计也⼗分直观。接下来看看在35个任务上的表现。

图中下划线表示最优结果，加粗表示在公开数据集上训练的最优结果。

从各个任务平均上看，FLAVA能够取得整体上的最优结果，多模态任务平均⽐CLIP⾼出2个百

分点左右，整体平均⽐CLIP⾼出10个百分点左右。从具体任务上看，在不少任务上都取得了

⼗分显著的提⾼，如STS-B数据集提⾼了69.69，MNLI数据集提⾼了46.81。

⼩结

不同于现有模型，FLAVA最⼤的特点，也可以说是创新点，在于作者实现了将单⼀模型运⽤于

三个不同领域的不同任务，⽽且都有着不错的效果，虽然FLAVA并没有奇迹般在所有任务上都

达到SOTA，但是整体性能上并不弱于现有模型，同时有着更⼴阔的运⽤场景，模型设计也没

有各种奇技淫巧，这对未来研究通⽤模型有着很⼤的启发。

萌屋作者：⼦⻰(Ryan)

本科毕业于北⼤计算机系，曾混迹于商汤和MSRA，现在是宅在UCSD(Social Dead) 的在读

PhD，主要关注多模态中的NLP和data mining，也在探索更多有意思的To p ic ，原本只是贵公

众号的吃⽠群众，被各种有意思的推送吸引就上了贼船，希望借此沾沾⼩屋的灵⽓，

paper++，早⽇成为有猫的程序员！

作品推荐：

1.别再搞纯⽂本了！多模⽂档理解更被时代需要！

2.Transformer哪家强？Google爸爸辨优良！

3.预训练语⾔真的是世界模型？

后台回复关键词【⼊群】

加⼊卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会】

获取ACL、CIKM等各⼤顶会论⽂集！

如何在⾃动驾驶的视觉感知中检测极端情况？

3D视觉⼯坊

致敬CondConv！英特尔提出即插即⽤的“万⾦油”动态卷积ODConv

AI科技评论

模型⼤⼗倍，性能提升⼏倍？⾕歌研究员进⾏了⼀番研究

磐创AI

微信扫⼀扫

关注该公众号

⼦⻰ 2022-01-05 12:05

原创

夕⼩瑶的卖萌屋

评论收藏

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 633

Facebook 推出多模态通用模型 FLAVA，吊打 CLIP 平均十个点！ .rar

Facebook 推出多模态通用模型 FLAVA，吊打 CLIP 平均十个点！ .pdf

吊打BERT、GPT、DALL·E，跨模态榜单新霸主诞生！.rar

ACL’21 _ 对话系统也要进军多模态了！ .rar

Prompt都不需要了，动动手就能玩多模态对话系统，iChat来啦！.rar

多模态为什么比单模态好？第一份严谨证明来了！.rar

多模态为什么比单模态好？第一份严谨证明来了！ .rar

Meta AI 发布 data2vec！统一模态的新里程碑！ .rar

微软发布多模态大模型最全综述！.pdf

刷新SOTA！Salesforce提出跨模态对比学习新方法，仅需4M图像数据！ .rar

吊打BERT、GPT、DALL·E，跨模态榜单新霸主诞生！.pdf

多模态为什么比单模态好？第一份严谨证明来了！.pdf

ACL’21 _ 对话系统也要进军多模态了！ .pdf

Prompt都不需要了，动动手就能玩多模态对话系统，iChat来啦！.pdf

多模态为什么比单模态好？第一份严谨证明来了！ .pdf

Meta AI 发布 data2vec！统一模态的新里程碑！ .pdf

【多模态大模型综述】【中文精细翻译】Multimodal Foundation Models

刷新SOTA！Salesforce提出跨模态对比学习新方法，仅需4M图像数据！ .pdf

TEmyMultimodeData.rar_TE_TE多模态数据_gojgz_te过程_多模态 过程

图灵奖大佬+谷歌团队，为通用人工智能背书！CV 任务也能用 LM 建模！ .pdf

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

农村公交与异构无人机协同配送优化

李飞飞自传 我看见的世界 The World I see

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

4个亲测好用的ChatGPT4渠道

基于小波与卷积神经网络的多尺度时间序列分类.zip

最新资源

TEmyMultimodeData.rar_TE_TE多模态数据_gojgz_te过程_多模态过程

李飞飞自传我看见的世界 The World I see