2202年了,继续大比拼ViT、MLP、CNN结构有意义吗??.pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
AI 科技 随着深度学习技术的发展,关于ViT、MLP、CNN结构的讨论一直是一个热门话题。近期,MSRA发布了一篇题为《Transformer 不比 CNN强 Local Attention 和动态 Depth-wise卷积前世今生》的博文,再次谈论了这个老生常谈的话题。文中提到,Depth-wise CNN和 attention 存在高度相似的结构,调参优化之后,从结果上来看,指标上也没相差多少。 如果从输入到输出的传播路径上来看,CNN 和 self-attention,从视角上看,其最终汇总到的特征,的确都是类似的,例如,self-attention 一层可以看作是全连接的一跳,经 N 层之后,形成了 N 跳可达。CNN 则也类似,二者都是在整个输入空间下,各单元之间的关联强度。只是实现路径不同。 博文发出之后,加州大学伯克利分校,统计学大佬,马毅教授转发并评论。事实上,这不是马毅教授第一次对类似的研究开炮,之前几乎所有所谓优化 transformer,以及 transformer、CNN、MLP 之争,马毅教授都会发表类似的观点。 溯源 Transformer、CNN、MLP 之争到底是什么时候开始的呢?我们可以把时间拉回到一年之前。2021 年 5 月 4 日,谷歌大脑团队在 arxiv 上提交了一篇论文《MLP-Mixer: An all-MLP Architecture for Vision》,这篇论文是原视觉 Transformer(ViT)团队的一个纯 MLP 架构的尝试。总结来说就是提出了一种仅仅需要多层感知机的框架——MLP-Mixer,无需卷积模块、注意力机制,即可达到与 CNN、Transformer 相媲美的图像分类性能。 众所周知,CV 领域主流架构的演变过程是 MLP->CNN->Transformer。MLP->CNN->Transformer 的演变之路难道现在要变成 MLP->CNN->Transformer->MLP?这难道就是学术“圈”的真谛吗?Mixer 号称不使用卷积或自注意力机制,完全基于在空间位置或特征通道上重复应用的多层感知器(MLP),它只依赖基础的矩阵乘法操作、数据变换(比如 reshape、transposition)以及非线性层操作。 当时就有知乎网友表示“这个网络和 Transformer 很接近,关键还是故事编的好,实际上只要标题取得好,轮子重复发明没人会在乎的”。此文一出,一石激起千层浪。只隔一天,2021年5月5日,清华大学图形学实验室 Jittor 团队在 arXiv 上也提交了一篇和 MLP 相关的论文《Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks》。这篇论文提出了一种新的注意力机制,称之为 External Attention。同日,清华大学软件学院丁贵广团队在 arXiv 上也提交了论文《RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition》,该论文中结合重参数化技术的 MLP 也能取得不错的视觉性能。 又隔了一天的 5 月 6 日,牛津大学的学者提交了一篇名为《Do You Even Need Attention? A Stack of Feed-forward Layers for Image Classification》的论文。这些论文的出现,引发了关于 ViT、MLP、CNN 结构的激烈讨论。那么,2022 年了,继续大比拼 ViT、MLP、CNN 结构有意义吗? 在讨论中,我们可以看到,ViT、MLP、CNN 结构之间的关系非常复杂,它们之间的相互影响和融合,已经形成了一个复杂的网络。ViT 结构的出现,打破了传统 CNN 结构的垄断,MLP 结构的出现,又打破了 ViT 结构的垄断。这场战争还将继续下去吗?我们拭目以待。
剩余9页未读,继续阅读
- 粉丝: 1261
- 资源: 5619
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助