MetaAI发布data2vec！统一模态的新里程碑！.pdf资源-CSDN文库

版权申诉

计算机视觉

78 浏览量 2023-08-12 12:52:56 上传评论收藏 1.66MB PDF 举报

资源推荐

资源详情

资源评论

喜欢此内容的⼈还喜欢

Meta AI 发布 data2vec！统⼀模态的新⾥程碑！

⽂ | ZenMoore

编 | ⼩轶

如果让⼤家举⼀个最成功的⾃监督模型的例⼦，尤其对于各位 NLPer，肯定毫不犹豫地祭出

我⼤ BERT. 想当年 BERT 打了⼀个名叫 MLM (Masked Language Model) 的响指，直接

成了 NLP 灭霸。

视觉界、语⾳界闻声⽽来，纷纷开启了 BERT 的视觉化、语⾳化的改造。

视觉界，以 patch 或者像素类⽐ NLP 的 token；语⾳界，虽然不能直接找到 token 的替

代，但是可以专⻔做 quantification 硬造 token.

但是，思考这样⼀个问题：为什么这些图像或者语⾳模态的⾃监督，⾮要⼀股 NLP 味⼉呢？

要知道，虽然确实有⽣物学的研究表明，⼈类在进⾏视觉上的学习时，会使⽤与语⾔学习相似

的机制，但是，这种 learning biases 并不⼀定完全可以泛化到其他模态。

所以有没有什么办法，能够把不同模态的⾃监督表示学习统⼀起来，不再是仿照 MLM 做

MIM (Masked Image Modelling)、MAM (Masked Audio Modelling)？

昨天，Meta AI （原 Facebook）发布最新⾃监督学习框架 Data2Vec，⽴即在整个 AI 圈疯

狂刷屏。这份⼯作或许预示着——多模态的新时代，即将到来。

本⽂就为⼤家简单解读⼀下，这份 AI 圈的今⽇头条，究竟做了些什么。

论⽂标题:

Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and

Language

论⽂作者:

Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli

Meta AI, SambaNova

论⽂链接:

https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-

learning-in-speech-vision-and-language

模型算法

编码、掩码

⾸先，对于三个不同的模态：⽂本、图像、语⾳，采⽤不同的编码⽅式以及掩码⽅式。

模态特定的编码⽅式：

1. ⽂本模态 : token embedding

2. 图像模态：参考 ViT[1, 2]，以 image patch 为单位，经过⼀个线性变换(linear

transformation)

3. 语⾳模态：使⽤多层⼀维卷积对 waveform 进⾏编码[3]。

模态特定的掩码⽅式：

1. ⽂本模态：对 token 掩码

2. 图像模态：block-wise masking strategy [2]

3. 语⾳模态：对语⾳模态来说，相邻的⾳频⽚段相关性⾮常⼤，所以需要对 span of latent

speech representation 进⾏掩码 [3]

掩码符为训练后得到的 MASK embedding token，⽽不是简单的 MASK token，原因且

看下⽂。

Student : 模型训练

之后，在 student-mode 中，根据 masked input 对掩码位置的表示进⾏预测。需要注意的

是，这⾥模型预测的并不是掩码位置(如 text token, pixel/patch, speech span)，⽽是掩码

位置经过模型编码后的表示。因为这个表示经过了 Attention/FFN 等⼀系列模块的处理，⾃

然是模态⽆关的，不仅如此，它还是连续的(continuous) ，编码了丰富的上下⽂语义

(contextualized)。

如果把输⼊空间⽐作物理世界，表示空间⽐作精神空间。那么，作者相当于直接在“精神

空间”中想象被遮住的部分(mask),颇有⼀种“梦⾥看花”的感觉。上次⻅到这“梦⼀般”的算

法，还是 Hinton ⽼爷⼦的 Sleep-Wake[4].

具体地，训练⽬标为如下的 smooth L1 loss：

其中，为使⽤ teacher model 构建的 training target；为 student model 在时刻

的输出；是超参，⽤来调整 L1 损失的平滑度。

Teacher : 数据构建

最后，还有⼀个问题，既然变成了对表示的掩码⽽⾮对原输⼊的掩码，那么训练数据怎么来

呢？

这就是 teacher-mode 的妙⽤。与 student-mode 不同的是，teacher-mode 的输⼊不再是

masked input，⽽是 original input, 这样，掩码位置对于 teacher 来说就是可⻅的，⾃然能

够得到掩码位置对应的表示，⽽这个表示，就是 student-mode 的 training target.

当然，为了保证“师⽣”两个模型的⼀致性，两者的参数是共享的。另外，⼜为了在训练初期让

Tea ch er 的参数更新更快⼀些，作者采⽤了⼀个指数滑动平均(EMA)： .

其中，是 Teacher 的参数，是 Student 的参数，类似于学习率，也是⼀个带有

scheduler 的参数。

具体地，training target 这么构建(按步骤)：

1. 找到 student-mode 输⼊中被 mask 掉的 time-step

2. 计算 teacher network 最后 K 层 transformer block 的输出：

3. 归⼀化 :

4. 平均 : , 即 training target.

对于第三步的归⼀化：语⾳模态采⽤ instance normalization ⽂本和图像模态采⽤

parameter-less layer normalization

Representation Collapse

在实验中，作者还遇到了 Representation Collapse 的问题：模型对于所有掩码⽚段输出⾮

常相似的 representation.

这个已经有好多解决办法啦~ 对于本⽂，有以下⼏种情况：

1. 学习率太⼤或者其 warmup 太短：通过调参解决

2. 指数滑动平均太慢了：还是调参

3. 对于相邻 target 相关性强的模态或者掩码⽚段较⻓的模态 (⽐如语⾳模态)：设置

variance 罚项[5]，或者归⼀化[6]，归⼀化的效果更好⼀些。

4. ⽽对于 targets 相关性不那么强的模态例如 NLP/CV 等，momentum tracking 就⾜够。

与同类⼯作的对⽐

与其他 NLP ⾃监督算法的对⽐：

和 BERT 不同，本⽂预测的并不是离散 token, ⽽是 continuous/contextualized

representation.

好处1: target 不是 predefined (⽐如有预定义的词表等), target set 也是⽆限的 (因为是连

续的)，因此可以让模型更好的适配特定的输⼊

好处2：考虑了更多上下⽂信息

与其他 CV ⾃监督算法的对⽐：

1. 与 BYOL[6]/DINO[7] 等：本⽂新增了掩码预测任务，⽽且是对多层进⾏回归(即参数 K)

2. 与 BEiT[2]/MAE[8] 等带掩码预测任务的算法：本⽂对 latent representation 进⾏预测

与其他 Speech ⾃监督算法的对⽐:

1. 与 Wav2vec2.0[3]/HuBERT[9] 等 : 其他⼯作⼀般需要另外预测 speech 中的离散单元

（或联合学习或交互学习），⽽本⽂不需要这种 quantification.

与多模态预训练的对⽐：

本⽂⼯作重点不在于多模态任务或者多模态训练，⽽在于如何把不同模态的⾃监督学习⽬标统

⼀起来。

实验结果

计算机视觉

实验任务：Image Classification

实验结论：可以看到本⽂⼯作有较明显的改进

语⾳

实验任务：Automatic Speech Recognition

实验结论：改进很明显

Natural Language Processing

wav2vec 2.0 masking : masking span of four tokens[3]

实验任务：GLUE

实验结果：作者仅仅对⽐了 19 年的两个 baseline, 说明在⽂本模态上的改进效果仍然受限，

但是这个分数也⾮常好了

Ablation 1 : layer-averaged targets

这也是和 BYOL[6]/DINO[7] 等模型的⼀⼤区分：对多层进⾏回归

从图表可⻅，⽐起只使⽤ top layer, 平均多层输出来构建 target 是很有效的！

Ablation 2 : 使⽤ Transformer 的哪⼀层？

基于语⾳模态进⾏实验，发现使⽤ FFN 层输出最有效，使⽤⾃注意⼒模块的输出基本没⽤。

原因：⾃注意⼒模块在残差连接之前，得到的 feature 具有很⼤的偏差(bias)。

写在最后

也许，在表示空间中⽽⾮输⼊空间中进⾏掩码预测的⾃监督表示学习，是⾃监督未来的重要⽅

向！

不过，作者也指出 Data2Vec 的⼀⼤局限：编码⽅式以及掩码⽅式仍然是 modality-

specific 的。能否使⽤类似于 Perceiver[10] 的⽅式直接在 raw data 上进⾏操作？或者是

否真的有必要统⼀各个模态的 encoder 呢？

犹记得卖萌屋作者群⾥有过这么⼀个分享，是 Yoshua Bengio 等在 EMNLP'20 的⽂章

[11]，⾥⾯界定了 NLP 发展的五个阶段：

毋庸置疑，多模态的⽕热标志着我们正在进⼊第三个阶段：多模态时代。

Data2Vec 巧妙地使⽤“梦⾥看花”的⽅式，让我们看到了⾃监督的强⼤威⼒，也让我们意识到

模态统⼀⼤业就在眼前！也许，现在的 Data2Vec，只是⼀颗不能发挥全部威⼒的宝⽯，就像

Word2Vec ⼀样，但相信在不久的将来，从 Data2Vec 出发，能够看到⼀统多模态的灭霸，

就像 BERT 那样！⼭⾬欲来，⻛满楼！

萌屋作者：ZenMoore

来⾃北航中法的本科⽣，数学转码 (AI)，想从 NLP 出发探索⼈⼯认知⼈⼯情感的奥秘... 个⼈

主⻚是 zenmoore.github.io, 知乎 ID 是 ZenMoore, 微信号是 zen1057398161, 嘤其鸣矣，

求其友声！

作品推荐

1. ⼀⽂跟进Prompt进展！综述+15篇最新论⽂逐⼀梳理

2. 图灵奖⼤佬+⾕歌团队，为通⽤⼈⼯智能背书！CV 任务也能⽤ LM 建模！

3. 以4%参数量⽐肩GPT-3！Deepmind 发布检索型 LM，或将成为 LM 发展新趋势！？

后台回复关键词【⼊群】

加⼊卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会】

获取ACL、CIKM等各⼤顶会论⽂集！

[1] An image is worth 16x16 words: Transformers for image recognition at scale.

https://arxiv.org/abs/2010.11929

[2] Beit: BERT pre-training of image transformers.

https://arxiv.org/abs/2106.08254

[3] Baevski, A., Zhou, Y., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised

learning of speech representations. In Proc. of NeurIPS, 2020b

[4] The wake-sleep algorithm for unsupervised neural networks

https://www.cs.toronto.edu/~hinton/csc2535/readings/ws.pdf

[5] Vicreg: Varianceinvariance-covariance regularization for self-supervised learning.

https://arxiv.org/abs/2105.04906

[6] Bootstrap your own latent: A new approach to self-supervised learning

https://arxiv.org/abs/2006.07733

[7] Emerging Properties in Self-Supervised Vision Transformers

https://arxiv.org/abs/2104.14294

[8] Masked Autoencoders Are Scalable Vision Learners

https://arxiv.org/abs/2111.06377

[9] HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

https://arxiv.org/abs/2106.07447

[10] Perceiver: General Perception with Iterative Attention

https://arxiv.org/abs/2103.03206

[11] Experience Grounds Language

https://arxiv.org/abs/2004.10151

data2vec:

General

Framework

for

Self-supervised

Learning

Speech,

Vision

and

Language

Alexei

Baevski'

Wei-Ning

Qiantong

Xu?

Arun

Babu'

Jiatao

Gu'

Michael

Auli'

Nat. Mach. Intell. | MolCLR:⼀个⽤于分⼦表征学习的⾃监督框架

DrugAI

《Datawhale强化学习教程》出版了！

Datawhale

微信扫⼀扫

关注该公众号

ZenMoore 2022-01-22 22:05

原创

夕⼩瑶的卖萌屋

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

评论收藏

内容反馈

版权申诉

地理探险家

粉丝: 1046
资源: 5416

Meta AI 发布 data2vec！统一模态的新里程碑！ .pdf

最新资源

Meta AI 发布 data2vec！统一模态的新里程碑！ .pdf

Meta AI 发布 data2vec！统一模态的新里程碑！ .rar

word2vec 中的数学原理详解PDF版.pdf

word2vec 中的数学原理详解.pdf

词向量-word2vec中的数学原理详解.pdf

Word2Vec中的数学原理详解.pdf

code_metapath2vec.zip

基于Word2Vec的云设计服务匹配方法研究.pdf

( 12-word2vec.pdf )

（word2vec 写的太好啦）word2vec Parameter Learning Explained.pdf

word2vec.pdf

velcro:Rust的集合初始化宏

word2vec-中的数学原理详解.pdf

wiki_word2vec_50.bin.zip

word2vec_lstm_talk.pdf

word2vec_中的数学原理详解的.pdf.zip

基于node2vec神经网络的信息取证方案研究.pdf

metapath2vec-master（2023.2.1 已调试通过，博客已记录）.zip

基于Word2Vec向量化的新闻分本分类.ipynb

NLP NLP到Word2vec实战班 A Neural Probabilistic Language Model.pdf

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

农村公交与异构无人机协同配送优化

李飞飞自传 我看见的世界 The World I see

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

4个亲测好用的ChatGPT4渠道

基于小波与卷积神经网络的多尺度时间序列分类.zip

最新资源

李飞飞自传我看见的世界 The World I see