没有合适的资源?快使用搜索试试~ 我知道了~
图灵奖大佬 Lecun 发表对比学习新作,比 SimCLR 更好用! .pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 111 浏览量
2023-08-12
12:54:55
上传
评论
收藏 1.66MB PDF 举报
温馨提示
试读
1页
图灵奖大佬 Lecun 发表对比学习新作,比 SimCLR 更好用! .pdf
资源推荐
资源详情
资源评论
喜欢此内容的⼈还喜欢
图灵奖⼤佬 Lecun 发表对⽐学习新作,⽐ SimCLR 更好⽤!
⽂ | Rukawa_Y
编 | 智商掉了⼀地,Sheryc_王苏
⽐ SimCLR 更好⽤的 Self-Supervised Learning,⼀起来看看吧!
Self-Supervised Learning作为深度学习中的独孤九剑,当融汇贯通灵活应⽤之后,也能打败
声名在外的武当太极剑。⽐如在NLP领域中,每当遇到⽂本分类的问题,BERT + funetuning
的套路来应对,但是也正因为如此⼤家解决问题的思路出现固化。也正是这个原因,当本菜⻦
第⼀次接触到Self-Supervised Learning这个概念时,就在项⽬中尝试应⽤Self-Supervised
的SimCLR⽅法,但是却事与愿违,模型的预测效果并没有显著地提升,反⽽出现了⼀丢丢的
下降,等厚着脸⽪求助⼤佬后才明⽩,SimCLR对于模型效果的提升必须基于⼤Batch Size才
会有效果。
⽽在近期,由 Yann Lecun 等⼈发表了⼀篇题为《Decouple Contrastive Learning》的论
⽂,其中仔细分析了SimCLR和其他⾃监督学习模型所使⽤的InfoNCE损失函数,仅仅对
InfoNCE的表达式进⾏了⼀处修改,就⼤⼤缓解了InfoNCE对于⼤Batch Size的需求问题,
并在不同规模的Vision Benchmarks上均取得优于SimCLR的结果。
接下来就让我们跟随论⽂的思路,⼀起学习Decoupled Contrastive Learning吧。
论⽂标题
Decoupled Contrastive Learning
论⽂链接
https://arxiv.org/abs/2110.06848
1 对⽐学习中正负样本的解耦
作为本⽂的背景,我们先来介绍⼀下SimCLR的基本思想,它是对训练样本做数据增强(例如
对于图像进⾏裁剪等),训练模型让同⼀图⽚增强后得到的表示相近,并互斥不同图⽚增强后
的表示。
论⽂从SimCLR所使⽤的InfoNCE损失函数开始分析。InfoNCE对于其中⼀个样本 的增强数
据 的InfoNCE损失函数 如下:
其中所使⽤的各个变量的意义分别为:
为⼀个Batch中所使⽤的样本, 为Batch Size;
是样本 增强后的两个数据;
是对于Batch中所有样本增强后的数据集合;
是样本 的增强数据输⼊到Encode Layer中所对应的输出;
是归⼀化后的表示。
InfoNCE的损失函数分别求对于 , 和 的梯度:(这⾥作者对梯度进⾏了⼀定的变
化,变化过程可参照论⽂附录的第⼀部分)
其中需要注意的是损失函数的梯度中均有⼀个系数 ,这个系数导致模型训练的梯度发⽣了
放缩。该系数的具体形式如下:
作者将这个导致SimCLR 模型梯度放缩的系数称为Negative-Positive Coupling (NPC)
Multiplier,即NPC乘数。NPC乘数分⼦和分⺟上出现的 中衡量了正样本对
的相似度,⽽分⺟上出现的 则衡量了负样本对的相似度。
顾名思义, 对训练的影响与正负样本的耦合有关:当负样本较为分散时,正样本同样可能
较为分散;反之,当正样本较为紧凑时,负样本同样可能较为紧凑。论⽂中对于不同情形下的
NPC乘数进⾏了定性分析,总结如下:
当训练使⽤的正样本较分散时,负样本可能同样⽐较分散。此时正样本为Hard
Positive,负样本为Easy Negative。这使得NPC乘数分⼦分⺟上的相似度同时减⼩,得
到的⼩于1的NPC乘数会减⼩Hard Positive带来的梯度幅度。
当训练使⽤的负样本较紧凑时,正样本可能同样⽐较紧凑。此时正样本为Easy
Positive,负样本为Hard Negative。这使得NPC乘数分⼦分⺟上的相似度同时增⼤,得
到的⼩于1的NPC乘数会减⼩Hard Negative带来的梯度幅度。
当Batch Size较⼩时,分⺟上对Batch中负样本相似度的求和会受限于Batch Size,得到
更⼩的NPC乘数,使得梯度幅度进⼀步被减⼩。
由此可⻅,SimCLR对于⼤Batch Size的需求很可能来⾃于NPC乘数对于梯度的缩⼩。
Batch Size同NPC乘数 分布的具体的关系⻅下图:
从图中可以明显看出,Batch Size越⼩, 的分布越接近于 ;Batch Size越⼤, 的分
布越接近于 。同时作者还给出了 的均值和离散系数同Batch Size的关系,⻅下图:
可以看出,⼩的Batch Size使得 的均值减⼩,离散系数增⼤,从⽽使得训练过程中的梯度被
⼤幅缩⼩。
综上所述,SimCLR等⾃监督模型中对于⼤Batch Size的需求问题⼀定程度上来⾃于 。论
⽂的作者由此修改了InfoNCE的公式来消除 的影响,从⽽引出了本⽂的核⼼:Decoupled
Contrastive Learning Loss。
2 Decoupled Contrastive Learning
既然NPC乘数的存在会使得梯度被缩⼩,那么移除掉NPC乘数不就能解决上⾯的问题了么?
通过将导数中的NPC乘数移除,作者推导出了下⾯的损失函数。在这个损失函数中,正负样本
的耦合带来的梯度放缩被消去,作者将该损失称为Decoupled Contrastive Learning
(DCL) Loss,即解耦对⽐损失函数:
可⻅,Decoupled Constrive Learning中的损失直接去掉了SimCLR损失函数分⺟中两个正
样本对之间的相似度,从⽽直接计算正样本对的相似度同所有负样本对相似度之和的⽐值。
Decoupled Contrastive Learning中所对应的梯度如下:
我们同样针对正负样本对耦合和Batch Size较⼩的情况,具体分析反向传播过程中的梯度:因
为缺少了NPC这个系数的影响,当出现正负样本耦合的情况,正负样本⽐较分散(Hard
Positive + Easy Negative)或者正负样本⽐较集中(Easy Positive + Hard Negative)反
向传播过程中梯度幅度就不会减少,同时因为没有了NPC系数的存在,⽐较⼩的Batch Size
也就不会使得梯度幅度变得很⼩。
综上所述,消去了NPC乘数的DCL损失函数能较SimCLR损失取得更好的效果,后⾯的实验结
果也对此进⾏了证明。
同时论⽂的作者还提出了⼀种DCL损失的变形,即对DCL损失中衡量正样本对相似度的⼀项增
加⼀个权重 。作者将其称为DCLW损失:
上式中,权重使⽤负von Mises-Fisher权重函数:
且 。 为参数,在后续实验中取0.5。这⼀权重使得在出现Hard Positive时能增⼤其
提供的训练信号。显然, 是 的⼀个特殊情况。
总结来说,DCL损失仅在SimCLR所采⽤的损失函数基础上采取了⼀些⼩的改动,使得模型能
够在训练过程中也不要求⼤Batch Size,同时对正负样本对进⾏解耦。
3 实验结果
论⽂作者⾸先⽐较在不同的Batch Size 下,使⽤DCL 损失和InfoNCE 损失的SimCLR 在
ImageNet、STL10、CIFAR10和CIFAR100数据集上的表现:
可以发现在不同的Batch Size上,DCL损失的效果均优于SimCLR。同时,Batch Size越
⼩,DCL损失提供的性能提升越⼤,这与先前的理论推导⼀致。
作者⼜⽐较了在Batch Size固定为256,epoch固定为200时的DCL损失和加权重的DCLW损
失,结果如下:
可以看出,DCLW损失相较于DCL损失能进⼀步提升模型效果,甚⾄在ImageNet-1K上能够
以 256 的 Batch Size 超越SimCLR 使⽤8192 Batch Size 的结果,66.2% 。可⻅,DCL 和
DCLW损失能够通过较⼩的改动解决SimCLR对于⼤Batch Size的依赖。
4 ⽂章⼩结
本篇论⽂针对⾃监督学习中的SimCLR⽅法为何要求较⼤Batch Size的原因开始分析,提出了
⼀种可以让⾃监督学习在较⼩的Batch Size上取得很好效果的loss函数,⼤幅降低了⾃监督学
习的计算成本,使得⾃监督学习可以有更⼴泛的应⽤。
除此之外,本篇论⽂还分析了SimCLR中使⽤的loss函数在反向传播梯度计算中的问题时,提出
的⼀种名为正负样本耦合(Negative-Positive Coupling) 现象,同时也给予了我们⼀定的
启发,如果是同SimCLR中所⽤的InfoNCE形式不相同的loss函数,在计算梯度的时候,是否
也会有正负样本耦合现象,或者说不仅仅有正负样本耦合的现象,还有例如对于不同正样本
的,在不同负样本之间的负负样本耦合的现象等,如果能够分析出Self-Supervised Learning
中不同⽅法可能存在不同的耦合现象,那么我们是否可以进⼀步地提升⾃监督模型的效果,这
些都是值得我们去思考和探索的。
后台回复关键词【⼊群】
加⼊卖萌屋NLP/IR/Rec与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各⼤顶会论⽂集!
吴恩达:AI的下⼀个发展⽅向,从⼤数据转向⼩数据
机器之⼼
吴恩达新动作:建⽴全新机器学习资源Hub,「以数据为中⼼的AI」⼤
本营
量⼦位
微信扫⼀扫
关注该公众号
Rukawa_Y 2021-11-17 12:05
原创
夕⼩瑶的卖萌屋
资源评论
地理探险家
- 粉丝: 986
- 资源: 5416
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功