Vision Transformer With Progressive Sampling.pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
计算机视觉任务中,Transformer模型因其强大的全局关系建模能力而被广泛应用。Vision Transformer(ViT)是其中的一个典型例子,它通过将图像简单地分割成固定长度的令牌,并利用Transformer来学习这些令牌之间的关系,直接将Transformer架构应用于图像分类。然而,这种简单的令牌化方法可能会破坏对象结构,将注意力分配到不感兴趣的区域如背景,并引入干扰信号。 为了解决这些问题,本文提出了一种迭代和渐进式采样策略,即Progressive Sampling(PS),用于定位具有区分性的区域。在每个迭代步骤中,当前采样步的嵌入被输入到Transformer编码器层,然后预测一组采样偏移量,用于更新下一次采样的位置。这种渐进式采样是可微分的,因此可以与Vision Transformer相结合,使PS-ViT网络能够自适应地学习关注的区域。 PS-ViT结合了Transformer的全局建模能力和渐进式采样的优势,既有效又高效。当从头开始在ImageNet上训练时,PS-ViT在Top-1准确率上比原始的ViT提高了3.8%,同时参数减少了约4倍,FLOPs减少了10倍。代码已在GitHub上开源(https://github.com/yuexy/PS-ViT)。 1. 引言 Transformer模型在自然语言处理领域取得了巨大成功,其强大的关系建模能力促使研究者尝试将其应用于计算机视觉基础任务。然而,直接应用Transformer于图像处理时,存在挑战,主要是由于图像数据的复杂性和空间结构。 2. Vision Transformer的问题 ViT的原始方法是将图像分割为等大小的patch,然后将每个patch转化为令牌,这些令牌被输入到Transformer中进行处理。这种方式忽略了图像中的局部结构信息,可能导致模型对背景等非关键区域的过度关注。 3. 渐进式采样(Progressive Sampling) 为了解决上述问题,PS策略逐步聚焦于图像中的关键区域。通过迭代过程,模型不断优化采样位置,以更准确地捕获图像的重要特征,从而提高模型的性能和效率。 4. PS-ViT架构 PS-ViT结合了渐进式采样和Transformer架构,形成一个动态的采样-学习过程。在训练过程中,模型不仅学习令牌间的关系,还学习如何更有效地采样图像以获取关键信息。 5. 实验与结果 实验结果显示,PS-ViT在多个基准数据集上表现优于标准的ViT模型,特别是在计算资源有限的情况下,它的性能优势更加明显。 6. 结论与未来工作 PS-ViT通过引入渐进式采样,改进了Transformer在图像识别任务中的性能,为视觉Transformer的研究开辟了新的方向。未来的工作可能包括进一步优化采样策略、提高模型的泛化能力以及应用到其他计算机视觉任务。 Progressive Sampling为Vision Transformer提供了一种有效且高效的改进方案,使得Transformer在处理图像数据时能更好地理解和利用图像的空间结构,提高了模型的性能和训练效率。
- 粉丝: 6589
- 资源: 9万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C2000DSP-BootLoader-GUI C#
- 图像分割,训练数据集,train-15【train-11~train-20免积分】
- cc数据库安装包操作系统dll问题解决
- 二手房数据-数据分析练习资源(csv表格)
- 图像分割,训练数据集,train-13【train-11~train-85免积分】
- Unity 山水树木的资源文件
- templatespider-机器人开发资源源代码
- 基于springboot的健身房管理系统(可做毕设参考)+源码+文档+sql.rar
- Spring Cloud电商项目精讲:架构设计与开发技巧课程
- 图像分割,训练数据集,train-11【train-11~train-95免积分】