2202年了，继续大比拼ViT、MLP、CNN结构有意义吗？？.pdf

版权申诉

58 浏览量 2023-08-12 21:54:28 上传评论收藏 6.05MB PDF 举报

AI 科技随着深度学习技术的发展，关于ViT、MLP、CNN结构的讨论一直是一个热门话题。近期，MSRA发布了一篇题为《Transformer 不比 CNN强 Local Attention 和动态 Depth-wise卷积前世今生》的博文，再次谈论了这个老生常谈的话题。文中提到，Depth-wise CNN和 attention 存在高度相似的结构，调参优化之后，从结果上来看，指标上也没相差多少。如果从输入到输出的传播路径上来看，CNN 和 self-attention，从视角上看，其最终汇总到的特征，的确都是类似的，例如，self-attention 一层可以看作是全连接的一跳，经 N 层之后，形成了 N 跳可达。CNN 则也类似，二者都是在整个输入空间下，各单元之间的关联强度。只是实现路径不同。博文发出之后，加州大学伯克利分校，统计学大佬，马毅教授转发并评论。事实上，这不是马毅教授第一次对类似的研究开炮，之前几乎所有所谓优化 transformer，以及 transformer、CNN、MLP 之争，马毅教授都会发表类似的观点。溯源 Transformer、CNN、MLP 之争到底是什么时候开始的呢？我们可以把时间拉回到一年之前。2021 年 5 月 4 日，谷歌大脑团队在 arxiv 上提交了一篇论文《MLP-Mixer: An all-MLP Architecture for Vision》，这篇论文是原视觉 Transformer（ViT）团队的一个纯 MLP 架构的尝试。总结来说就是提出了一种仅仅需要多层感知机的框架——MLP-Mixer，无需卷积模块、注意力机制，即可达到与 CNN、Transformer 相媲美的图像分类性能。众所周知，CV 领域主流架构的演变过程是 MLP->CNN->Transformer。MLP->CNN->Transformer 的演变之路难道现在要变成 MLP->CNN->Transformer->MLP？这难道就是学术“圈”的真谛吗？Mixer 号称不使用卷积或自注意力机制，完全基于在空间位置或特征通道上重复应用的多层感知器（MLP），它只依赖基础的矩阵乘法操作、数据变换（比如 reshape、transposition）以及非线性层操作。当时就有知乎网友表示“这个网络和 Transformer 很接近，关键还是故事编的好，实际上只要标题取得好，轮子重复发明没人会在乎的”。此文一出，一石激起千层浪。只隔一天，2021年5月5日，清华大学图形学实验室 Jittor 团队在 arXiv 上也提交了一篇和 MLP 相关的论文《Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks》。这篇论文提出了一种新的注意力机制，称之为 External Attention。同日，清华大学软件学院丁贵广团队在 arXiv 上也提交了论文《RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition》，该论文中结合重参数化技术的 MLP 也能取得不错的视觉性能。又隔了一天的 5 月 6 日，牛津大学的学者提交了一篇名为《Do You Even Need Attention? A Stack of Feed-forward Layers for Image Classification》的论文。这些论文的出现，引发了关于 ViT、MLP、CNN 结构的激烈讨论。那么，2022 年了，继续大比拼 ViT、MLP、CNN 结构有意义吗？在讨论中，我们可以看到，ViT、MLP、CNN 结构之间的关系非常复杂，它们之间的相互影响和融合，已经形成了一个复杂的网络。ViT 结构的出现，打破了传统 CNN 结构的垄断，MLP 结构的出现，又打破了 ViT 结构的垄断。这场战争还将继续下去吗？我们拭目以待。

资源推荐

资源详情

资源评论