当NLPer爱上CV：后BERT时代生存指南之VL-BERT篇.rar资源-CSDN文库

共1个文件

pdf：1个

版权申诉

101 浏览量 2023-10-18 17:54:50 上传评论收藏 1.14MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

当NLPer爱上CV：后BERT时代生存指南之VL-BERT篇.rar （1个子文件）

当NLPer爱上CV：后BERT时代生存指南之VL-BERT篇.pdf 1.3MB

当NLPer爱上CV：后BERT时代⽣存指南之VL-BERT篇

原创

⼩⿅⿅lulu

3⽉16⽇⼣⼩瑶的卖萌屋

来⾃专辑

卖萌屋@⾃然语⾔处理

⼀只⼩狐狸带你解锁炼丹术&NLP 秘籍

前⾔

BERT的出现让NLP发展实现了⼀个⼤⻜跃，甚⾄有⼤佬说NLP已经没有可以做的啦，后⾯就是拼机器拼money了。但是，我认为

任何领域的进步之后都会有更苛刻的要求，科研没有尽头，需求也永远⽆法满⾜。⽽多模态，要求机器拥有多维度的感知能⼒，

就是⼀个更强的挑战。关于这个话题也逐渐成为另外⼀个新热点。从19年到现在的论⽂数量就可⻅⼀斑。

所以，为了迎上发展的势头，在继videoBERT之后⼜调研了⼀番image和BERT结合的⼯作。下⽂将介绍MSRA出品的VL-

BERT，通过这个模型来⼀览现阶段 image+BERT 的研究现状吧。

后台回复【VL-BERT】下载论⽂原⽂~~

模型介绍

VL-BERT模型以transformer为⻣⼲，将BERT的输⼊扩展为⽂本+图像。那么问题来了，怎样将两者花式融合呢？让我们揣测⼀下

作者的炼丹思路：

1. 图⽚和⽂本没法直接对⻬，暴⼒输⼊整张图

于是就有了图中⽤红⾊虚线框起来的部分，直接将图像、⽂本、segment和position embeding加和输⼊。这样做MLM任务是没问

题了，但怎样确定模型能准确提取图像信息呢？

2. 提取图像中的重要部分，增加⽆⽂本的图像输⼊

由于整张图⽚的粒度远⼤于⽂本token，⼀次性输⼊整张图⽚显然不利于图像和⽂本信息的交互。所以使⽤了⽬标检测⼯具对图⽚

进⾏分块，提取图像中感兴趣的核⼼部分RoI（region-of-interest），加上[IMG]标识，输⼊到模型中（图中浅绿⾊实线框起来的

部分）。为了不失掉全局信息，在[END]对应的位置⼜加上了整张图像。另外，我们假设图⽚的不同区域是没有顺序可⾔的，即

position embedding是⼀样的。

类⽐⽂本输⼊，模型实际上接受的是⽂本token（subword）对应的word embedding，所以我们会对所有图像输⼊（不管是整

张图⽚还是局部RoIs）使⽤pre-trained R-CNN提取2048维的visual feature embedding输⼊到模型中。

⾃监督学习任务（pretrain）

结合上⽂介绍的模型结构，再强调⼀下两个预训练任务：

1. Masked Language Model with visual Clues

根据⽂本+图像信息预测⽂本token，升级版的MLM。唯⼀不同的是被mask的word除了根据没被mask的⽂本来预测还可以根据视

觉的信息来辅助。⽐如上图中的例⼦，被mask后的word sequence是kitten drinking from [MASK]，如果没有图⽚给我们的视觉信

息是⽆法预测出被mask的词是bottle。

2. Masked RoI Classification with LinguisticClues

根据⽂本+图像信息预测RoIs的类别，针对图像的“MLM”。以下图为例，⾸先对图⽚使⽤⽬标检测⼯具提取RoIs并获得所属类

别，然后随机mask局部区域（树叶部分）。需要注意的是，由于模型会接收整张图⽚的输⼊，为了避免信息泄露，整张图⽚对应

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 633

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip