没有合适的资源?快使用搜索试试~ 我知道了~
Meta AI 发布 data2vec!统一模态的新里程碑! .pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 78 浏览量
2023-08-12
12:52:56
上传
评论
收藏 1.66MB PDF 举报
温馨提示
试读
1页
Meta AI 发布 data2vec!统一模态的新里程碑! .pdf
资源推荐
资源详情
资源评论
喜欢此内容的⼈还喜欢
Meta AI 发布 data2vec!统⼀模态的新⾥程碑!
⽂ | ZenMoore
编 | ⼩轶
如果让⼤家举⼀个最成功的⾃监督模型的例⼦,尤其对于各位 NLPer,肯定毫不犹豫地祭出
我⼤ BERT. 想当年 BERT 打了⼀个名叫 MLM (Masked Language Model) 的响指,直接
成了 NLP 灭霸。
视觉界、语⾳界闻声⽽来,纷纷开启了 BERT 的视觉化、语⾳化的改造。
视觉界,以 patch 或者像素类⽐ NLP 的 token;语⾳界,虽然不能直接找到 token 的替
代,但是可以专⻔做 quantification 硬造 token.
但是,思考这样⼀个问题:为什么这些图像或者语⾳模态的⾃监督,⾮要⼀股 NLP 味⼉呢?
要知道,虽然确实有⽣物学的研究表明,⼈类在进⾏视觉上的学习时,会使⽤与语⾔学习相似
的机制,但是,这种 learning biases 并不⼀定完全可以泛化到其他模态。
所以有没有什么办法,能够把不同模态的⾃监督表示学习统⼀起来,不再是仿照 MLM 做
MIM (Masked Image Modelling)、MAM (Masked Audio Modelling)?
昨天,Meta AI (原 Facebook)发布最新⾃监督学习框架 Data2Vec,⽴即在整个 AI 圈疯
狂刷屏。这份⼯作或许预示着——多模态的新时代,即将到来。
本⽂就为⼤家简单解读⼀下,这份 AI 圈的今⽇头条,究竟做了些什么。
论⽂标题:
Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and
Language
论⽂作者:
Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli
Meta AI, SambaNova
论⽂链接:
https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-
learning-in-speech-vision-and-language
模型算法
编码、掩码
⾸先,对于三个不同的模态:⽂本、图像、语⾳,采⽤不同的编码⽅式以及掩码⽅式。
模态特定的编码⽅式 :
1. ⽂本模态 : token embedding
2. 图像模态:参考 ViT[1, 2],以 image patch 为单位,经过⼀个线性变换(linear
transformation)
3. 语⾳模态:使⽤多层⼀维卷积对 waveform 进⾏编码[3]。
模态特定的掩码⽅式:
1. ⽂本模态:对 token 掩码
2. 图像模态:block-wise masking strategy [2]
3. 语⾳模态:对语⾳模态来说,相邻的⾳频⽚段相关性⾮常⼤,所以需要对 span of latent
speech representation 进⾏掩码 [3]
掩码符为训练后得到的 MASK embedding token,⽽不是简单的 MASK token,原因且
看下⽂。
Student : 模型训练
之后,在 student-mode 中,根据 masked input 对掩码位置的表示进⾏预测。需要注意的
是,这⾥模型预测的并不是掩码位置(如 text token, pixel/patch, speech span),⽽是掩码
位置经过模型编码后的表示。因为这个表示经过了 Attention/FFN 等⼀系列模块的处理,⾃
然是模态⽆关的,不仅如此,它还是连续的(continuous) ,编码了丰富的上下⽂语义
(contextualized)。
如果把输⼊空间⽐作物理世界,表示空间⽐作精神空间。那么,作者相当于直接在“精神
空间”中想象被遮住的部分(mask),颇有⼀种“梦⾥看花”的感觉。上次⻅到这“梦⼀般”的算
法,还是 Hinton ⽼爷⼦的 Sleep-Wake[4].
具体地,训练⽬标为如下的 smooth L1 loss:
其中, 为使⽤ teacher model 构建的 training target; 为 student model 在时刻
的输出; 是超参,⽤来调整 L1 损失的平滑度。
Teacher : 数据构建
最后,还有⼀个问题,既然变成了对表示的掩码⽽⾮对原输⼊的掩码,那么训练数据怎么来
呢?
这就是 teacher-mode 的妙⽤。与 student-mode 不同的是,teacher-mode 的输⼊不再是
masked input,⽽是 original input, 这样,掩码位置对于 teacher 来说就是可⻅的,⾃然能
够得到掩码位置对应的表示,⽽这个表示,就是 student-mode 的 training target.
当然,为了保证“师⽣”两个模型的⼀致性,两者的参数是共享的。另外,⼜为了在训练初期让
Tea ch er 的参数更新更快⼀些,作者采⽤了⼀个指数滑动平均(EMA): .
其中, 是 Teacher 的参数, 是 Student 的参数, 类似于学习率,也是⼀个带有
scheduler 的参数。
具体地,training target 这么构建(按步骤):
1. 找到 student-mode 输⼊中被 mask 掉的 time-step
2. 计算 teacher network 最后 K 层 transformer block 的输出:
3. 归⼀化 :
4. 平均 : , 即 training target.
对于第三步的归⼀化:语⾳模态采⽤ instance normalization ⽂本和图像模态采⽤
parameter-less layer normalization
Representation Collapse
在实验中,作者还遇到了 Representation Collapse 的问题:模型对于所有掩码⽚段输出⾮
常相似的 representation.
这个已经有好多解决办法啦~ 对于本⽂,有以下⼏种情况:
1. 学习率太⼤或者其 warmup 太短:通过调参解决
2. 指数滑动平均太慢了:还是调参
3. 对于相邻 target 相关性强的模态或者掩码⽚段较⻓的模态 (⽐如语⾳模态):设置
variance 罚项[5],或者归⼀化[6],归⼀化的效果更好⼀些。
4. ⽽对于 targets 相关性不那么强的模态例如 NLP/CV 等,momentum tracking 就⾜够。
与同类⼯作的对⽐
与其他 NLP ⾃监督算法的对⽐:
和 BERT 不同,本⽂预测的并不是离散 token, ⽽是 continuous/contextualized
representation.
好处1: target 不是 predefined (⽐如有预定义的词表等), target set 也是⽆限的 (因为是连
续的),因此可以让模型更好的适配特定的输⼊
好处2:考虑了更多上下⽂信息
与其他 CV ⾃监督算法的对⽐:
1. 与 BYOL[6]/DINO[7] 等:本⽂新增了掩码预测任务,⽽且是对多层进⾏回归(即参数 K)
2. 与 BEiT[2]/MAE[8] 等带掩码预测任务的算法:本⽂对 latent representation 进⾏预测
与其他 Speech ⾃监督算法的对⽐:
1. 与 Wav2vec2.0[3]/HuBERT[9] 等 : 其他⼯作⼀般需要另外预测 speech 中的离散单元
(或联合学习或交互学习),⽽本⽂不需要 这种 quantification.
与多模态预训练的对⽐:
本⽂⼯作重点不在于多模态任务或者多模态训练,⽽在于如何把不同模态的⾃监督学习⽬标统
⼀起来。
实验结果
计算机视觉
实验任务:Image Classification
实验结论:可以看到本⽂⼯作有较明显的改进
语⾳
实验任务:Automatic Speech Recognition
实验结论:改进很明显
Natural Language Processing
wav2vec 2.0 masking : masking span of four tokens[3]
实验任务:GLUE
实验结果:作者仅仅对⽐了 19 年的两个 baseline, 说明在⽂本模态上的改进效果仍然受限,
但是这个分数也⾮常好了
Ablation 1 : layer-averaged targets
这也是和 BYOL[6]/DINO[7] 等模型的⼀⼤区分:对多层进⾏回归
从图表可⻅,⽐起只使⽤ top layer, 平均多层输出来构建 target 是很有效的!
Ablation 2 : 使⽤ Transformer 的哪⼀层?
基于语⾳模态进⾏实验,发现使⽤ FFN 层输出最有效,使⽤⾃注意⼒模块的输出基本没⽤。
原因:⾃注意⼒模块在残差连接之前,得到的 feature 具有很⼤的偏差(bias)。
写在最后
也许,在表示空间中⽽⾮输⼊空间中进⾏掩码预测的⾃监督表示学习,是⾃监督未来的重要⽅
向!
不过,作者也指出 Data2Vec 的⼀⼤局限:编码⽅式以及掩码⽅式仍然是 modality-
specific 的。能否使⽤类似于 Perceiver[10] 的⽅式直接在 raw data 上进⾏操作?或者是
否真的有必要统⼀各个模态的 encoder 呢?
犹记得卖萌屋作者群⾥有过这么⼀个分享,是 Yoshua Bengio 等在 EMNLP'20 的⽂章
[11],⾥⾯界定了 NLP 发展的五个阶段:
毋庸置疑,多模态的⽕热标志着我们正在进⼊第三个阶段:多模态时代。
Data2Vec 巧妙地使⽤“梦⾥看花”的⽅式,让我们看到了⾃监督的强⼤威⼒,也让我们意识到
模态统⼀⼤业就在眼前!也许,现在的 Data2Vec,只是⼀颗不能发挥全部威⼒的宝⽯,就像
Word2Vec ⼀样,但相信在不久的将来,从 Data2Vec 出发,能够看到⼀统多模态的灭霸,
就像 BERT 那样!⼭⾬欲来,⻛满楼!
萌屋作者:ZenMoore
来⾃北航中法的本科⽣,数学转码 (AI),想从 NLP 出发探索⼈⼯认知⼈⼯情感的奥秘... 个⼈
主⻚是 zenmoore.github.io, 知乎 ID 是 ZenMoore, 微信号是 zen1057398161, 嘤其鸣矣,
求其友声!
作品推荐
1. ⼀⽂跟进Prompt进展!综述+15篇最新论⽂逐⼀梳理
2. 图灵奖⼤佬+⾕歌团队,为通⽤⼈⼯智能背书!CV 任务也能⽤ LM 建模!
3. 以4%参数量⽐肩GPT-3!Deepmind 发布检索型 LM,或将成为 LM 发展新趋势!?
后台回复关键词【⼊群】
加⼊卖萌屋NLP/IR/Rec与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各⼤顶会论⽂集!
[1] An image is worth 16x16 words: Transformers for image recognition at scale.
https://arxiv.org/abs/2010.11929
[2] Beit: BERT pre-training of image transformers.
https://arxiv.org/abs/2106.08254
[3] Baevski, A., Zhou, Y., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised
learning of speech representations. In Proc. of NeurIPS, 2020b
[4] The wake-sleep algorithm for unsupervised neural networks
https://www.cs.toronto.edu/~hinton/csc2535/readings/ws.pdf
[5] Vicreg: Varianceinvariance-covariance regularization for self-supervised learning.
https://arxiv.org/abs/2105.04906
[6] Bootstrap your own latent: A new approach to self-supervised learning
https://arxiv.org/abs/2006.07733
[7] Emerging Properties in Self-Supervised Vision Transformers
https://arxiv.org/abs/2104.14294
[8] Masked Autoencoders Are Scalable Vision Learners
https://arxiv.org/abs/2111.06377
[9] HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
https://arxiv.org/abs/2106.07447
[10] Perceiver: General Perception with Iterative Attention
https://arxiv.org/abs/2103.03206
[11] Experience Grounds Language
https://arxiv.org/abs/2004.10151
data2vec:
A
General
Framework
for
Self-supervised
Learning
in
Speech,
Vision
and
Language
Alexei
Baevski'
Wei-Ning
Hu
'
Qiantong
Xu?
Arun
Babu'
Jiatao
Gu'
Michael
Auli'
Nat. Mach. Intell. | MolCLR:⼀个⽤于分⼦表征学习的⾃监督框架
DrugAI
《Datawhale强化学习教程》出版了!
Datawhale
微信扫⼀扫
关注该公众号
ZenMoore 2022-01-22 22:05
原创
夕⼩瑶的卖萌屋
资源评论
地理探险家
- 粉丝: 1046
- 资源: 5416
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功