图灵奖大佬Lecun发表对比学习新作，比SimCLR更好用！.pdf资源-CSDN文库

版权申诉

计算机视觉

111 浏览量 2023-08-12 12:54:55 上传评论收藏 1.66MB PDF 举报

资源推荐

资源详情

资源评论

喜欢此内容的⼈还喜欢

图灵奖⼤佬 Lecun 发表对⽐学习新作，⽐ SimCLR 更好⽤！

⽂ | Rukawa_Y

编 | 智商掉了⼀地，Sheryc_王苏

⽐ SimCLR 更好⽤的 Self-Supervised Learning，⼀起来看看吧！

Self-Supervised Learning作为深度学习中的独孤九剑，当融汇贯通灵活应⽤之后，也能打败

声名在外的武当太极剑。⽐如在NLP领域中，每当遇到⽂本分类的问题，BERT + funetuning

的套路来应对，但是也正因为如此⼤家解决问题的思路出现固化。也正是这个原因，当本菜⻦

第⼀次接触到Self-Supervised Learning这个概念时，就在项⽬中尝试应⽤Self-Supervised

的SimCLR⽅法，但是却事与愿违，模型的预测效果并没有显著地提升，反⽽出现了⼀丢丢的

下降，等厚着脸⽪求助⼤佬后才明⽩，SimCLR对于模型效果的提升必须基于⼤Batch Size才

会有效果。

⽽在近期，由 Yann Lecun 等⼈发表了⼀篇题为《Decouple Contrastive Learning》的论

⽂，其中仔细分析了SimCLR和其他⾃监督学习模型所使⽤的InfoNCE损失函数，仅仅对

InfoNCE的表达式进⾏了⼀处修改，就⼤⼤缓解了InfoNCE对于⼤Batch Size的需求问题，

并在不同规模的Vision Benchmarks上均取得优于SimCLR的结果。

接下来就让我们跟随论⽂的思路，⼀起学习Decoupled Contrastive Learning吧。

论⽂标题

Decoupled Contrastive Learning

论⽂链接

https://arxiv.org/abs/2110.06848

1 对⽐学习中正负样本的解耦

作为本⽂的背景，我们先来介绍⼀下SimCLR的基本思想，它是对训练样本做数据增强（例如

对于图像进⾏裁剪等），训练模型让同⼀图⽚增强后得到的表示相近，并互斥不同图⽚增强后

的表示。

论⽂从SimCLR所使⽤的InfoNCE损失函数开始分析。InfoNCE对于其中⼀个样本的增强数

据的InfoNCE损失函数如下：

其中所使⽤的各个变量的意义分别为：

为⼀个Batch中所使⽤的样本，为Batch Size；

是样本增强后的两个数据；

是对于Batch中所有样本增强后的数据集合；

是样本的增强数据输⼊到Encode Layer中所对应的输出；

是归⼀化后的表示。

InfoNCE的损失函数分别求对于，和的梯度：（这⾥作者对梯度进⾏了⼀定的变

化，变化过程可参照论⽂附录的第⼀部分）

其中需要注意的是损失函数的梯度中均有⼀个系数，这个系数导致模型训练的梯度发⽣了

放缩。该系数的具体形式如下：

作者将这个导致SimCLR 模型梯度放缩的系数称为Negative-Positive Coupling (NPC)

Multiplier，即NPC乘数。NPC乘数分⼦和分⺟上出现的中衡量了正样本对

的相似度，⽽分⺟上出现的则衡量了负样本对的相似度。

顾名思义，对训练的影响与正负样本的耦合有关：当负样本较为分散时，正样本同样可能

较为分散；反之，当正样本较为紧凑时，负样本同样可能较为紧凑。论⽂中对于不同情形下的

NPC乘数进⾏了定性分析，总结如下：

当训练使⽤的正样本较分散时，负样本可能同样⽐较分散。此时正样本为Hard

Positive，负样本为Easy Negative。这使得NPC乘数分⼦分⺟上的相似度同时减⼩，得

到的⼩于1的NPC乘数会减⼩Hard Positive带来的梯度幅度。

当训练使⽤的负样本较紧凑时，正样本可能同样⽐较紧凑。此时正样本为Easy

Positive，负样本为Hard Negative。这使得NPC乘数分⼦分⺟上的相似度同时增⼤，得

到的⼩于1的NPC乘数会减⼩Hard Negative带来的梯度幅度。

当Batch Size较⼩时，分⺟上对Batch中负样本相似度的求和会受限于Batch Size，得到

更⼩的NPC乘数，使得梯度幅度进⼀步被减⼩。

由此可⻅，SimCLR对于⼤Batch Size的需求很可能来⾃于NPC乘数对于梯度的缩⼩。

Batch Size同NPC乘数分布的具体的关系⻅下图：

从图中可以明显看出，Batch Size越⼩，的分布越接近于；Batch Size越⼤，的分

布越接近于。同时作者还给出了的均值和离散系数同Batch Size的关系，⻅下图：

可以看出，⼩的Batch Size使得的均值减⼩，离散系数增⼤，从⽽使得训练过程中的梯度被

⼤幅缩⼩。

综上所述，SimCLR等⾃监督模型中对于⼤Batch Size的需求问题⼀定程度上来⾃于。论

⽂的作者由此修改了InfoNCE的公式来消除的影响，从⽽引出了本⽂的核⼼：Decoupled

Contrastive Learning Loss。

2 Decoupled Contrastive Learning

既然NPC乘数的存在会使得梯度被缩⼩，那么移除掉NPC乘数不就能解决上⾯的问题了么？

通过将导数中的NPC乘数移除，作者推导出了下⾯的损失函数。在这个损失函数中，正负样本

的耦合带来的梯度放缩被消去，作者将该损失称为Decoupled Contrastive Learning

(DCL) Loss，即解耦对⽐损失函数：

可⻅，Decoupled Constrive Learning中的损失直接去掉了SimCLR损失函数分⺟中两个正

样本对之间的相似度，从⽽直接计算正样本对的相似度同所有负样本对相似度之和的⽐值。

Decoupled Contrastive Learning中所对应的梯度如下：

我们同样针对正负样本对耦合和Batch Size较⼩的情况，具体分析反向传播过程中的梯度：因

为缺少了NPC这个系数的影响，当出现正负样本耦合的情况，正负样本⽐较分散（Hard

Positive + Easy Negative）或者正负样本⽐较集中（Easy Positive + Hard Negative）反

向传播过程中梯度幅度就不会减少，同时因为没有了NPC系数的存在，⽐较⼩的Batch Size

也就不会使得梯度幅度变得很⼩。

综上所述，消去了NPC乘数的DCL损失函数能较SimCLR损失取得更好的效果，后⾯的实验结

果也对此进⾏了证明。

同时论⽂的作者还提出了⼀种DCL损失的变形，即对DCL损失中衡量正样本对相似度的⼀项增

加⼀个权重。作者将其称为DCLW损失：

上式中，权重使⽤负von Mises-Fisher权重函数：

且。为参数，在后续实验中取0.5。这⼀权重使得在出现Hard Positive时能增⼤其

提供的训练信号。显然，是的⼀个特殊情况。

总结来说，DCL损失仅在SimCLR所采⽤的损失函数基础上采取了⼀些⼩的改动，使得模型能

够在训练过程中也不要求⼤Batch Size，同时对正负样本对进⾏解耦。

3 实验结果

论⽂作者⾸先⽐较在不同的Batch Size 下，使⽤DCL 损失和InfoNCE 损失的SimCLR 在

ImageNet、STL10、CIFAR10和CIFAR100数据集上的表现：

可以发现在不同的Batch Size上，DCL损失的效果均优于SimCLR。同时，Batch Size越

⼩，DCL损失提供的性能提升越⼤，这与先前的理论推导⼀致。

作者⼜⽐较了在Batch Size固定为256，epoch固定为200时的DCL损失和加权重的DCLW损

失，结果如下：

可以看出，DCLW损失相较于DCL损失能进⼀步提升模型效果，甚⾄在ImageNet-1K上能够

以 256 的 Batch Size 超越SimCLR 使⽤8192 Batch Size 的结果，66.2% 。可⻅，DCL 和

DCLW损失能够通过较⼩的改动解决SimCLR对于⼤Batch Size的依赖。

4 ⽂章⼩结

本篇论⽂针对⾃监督学习中的SimCLR⽅法为何要求较⼤Batch Size的原因开始分析，提出了

⼀种可以让⾃监督学习在较⼩的Batch Size上取得很好效果的loss函数，⼤幅降低了⾃监督学

习的计算成本，使得⾃监督学习可以有更⼴泛的应⽤。

除此之外,本篇论⽂还分析了SimCLR中使⽤的loss函数在反向传播梯度计算中的问题时，提出

的⼀种名为正负样本耦合（Negative-Positive Coupling）现象，同时也给予了我们⼀定的

启发，如果是同SimCLR中所⽤的InfoNCE形式不相同的loss函数，在计算梯度的时候，是否

也会有正负样本耦合现象，或者说不仅仅有正负样本耦合的现象，还有例如对于不同正样本

的，在不同负样本之间的负负样本耦合的现象等，如果能够分析出Self-Supervised Learning

中不同⽅法可能存在不同的耦合现象，那么我们是否可以进⼀步地提升⾃监督模型的效果，这

些都是值得我们去思考和探索的。

后台回复关键词【⼊群】

加⼊卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会】

获取ACL、CIKM等各⼤顶会论⽂集！

吴恩达：AI的下⼀个发展⽅向，从⼤数据转向⼩数据

机器之⼼

吴恩达新动作：建⽴全新机器学习资源Hub，「以数据为中⼼的AI」⼤

本营

量⼦位

微信扫⼀扫

关注该公众号

Rukawa_Y 2021-11-17 12:05

原创

夕⼩瑶的卖萌屋

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

评论收藏

内容反馈

版权申诉

地理探险家

粉丝: 986
资源: 5416

图灵奖大佬 Lecun 发表对比学习新作，比 SimCLR 更好用！ .pdf

最新资源

图灵奖大佬 Lecun 发表对比学习新作，比 SimCLR 更好用！ .pdf

图灵奖大佬 Lecun 发表对比学习新作，比 SimCLR 更好用！ .rar

图灵奖大佬+谷歌团队，为通用人工智能背书！CV 任务也能用 LM 建模！ .pdf

图灵奖大佬+谷歌团队，为通用人工智能背书！CV 任务也能用 LM 建模！ .rar

70页《自监督学习》最新简明指南，图灵奖LeCun等编著 .pdf

IT最高奖 图灵奖 图灵奖 图灵奖

Python亲测免费-《python编程从入门到实践 第3版》 配套资源下载地址！.pdf

图灵奖演讲集：前20年（1966-1985）.pdf

ACM图灵奖：1966-2006(第三版）.计算机发展史的缩影.pdf 第三部分

图灵奖得主LeCun：ChatGPT局限巨大，自回归模型寿命不超5年

拓展知识：图灵奖简介.pdf

图灵机.pdf

计算的美丽-图灵奖获得者

对RISC贡献巨大,两名芯片专家获图灵奖.pdf

两位体系结构宗师获2017 ACM图灵奖 AI芯片时代拉开帷幕.pdf

机器学习圣杯：图灵奖得主Bengio和LeCun称自监督学习可使AI达到人类智力水平

基于GoogleScholar引度指标探析以图灵奖文献为例[参考].pdf

ACM图灵奖：1966-2006(第三版）.计算机发展史的缩影.pdf 第一部分

从图灵测试到ChatGPT——人机对话的里程碑及启示.pdf

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

2023泛娱乐社交出海手册-ZEGO即构科技

4个亲测好用的ChatGPT4渠道

HAI-2024斯坦福AI指数报告（中文译版）.pdf

学术海报模板+论文科研+研究生

北森能力测评题库.zip

最新资源

IT最高奖图灵奖图灵奖图灵奖

Python亲测免费-《python编程从入门到实践第3版》配套资源下载地址！.pdf