没有合适的资源?快使用搜索试试~ 我知道了~
无卷积步长或池化:用于低分辨率图像和小物体的新 CNN 模块SPD-Conv
需积分: 23 21 下载量 195 浏览量
2022-10-06
16:03:27
上传
评论 4
收藏 1.91MB PDF 举报
温馨提示
试读
16页
No More Strided Convolutions or Pooling:A New CNN Building Block for Low-Resolution Images and Small Objects 无卷积步长或池化:用于低分辨率图像和小物体的新 CNN 模块SPD-Conv 提出了一个名为SPD-Conv的新的CNN构建块,它完全消除了步长和池化操作,取而代之的是一个空间到深度卷积和一个无步长卷积。
资源推荐
资源详情
资源评论
无卷积步长或池化:用于低分辨率图像和小
物体的新 CNN 模块 SPD-Conv
摘要
卷积神经网络(CNNs)在图像分类和目标检测等计算机视觉任务中取得了显
著的成功。然而,当图像分辨率较低或物体较小时,它们的性能会迅速下降。在
本文中,我们指出这根源为现有 CNN 常见的设计体系结构中一个有缺陷,即使
用卷积步长和/或池化层,这导致了细粒度信息的丢失和较低效的特征表示的学
习。为此,我们提出了一个名为 SPD-Conv 的新的 CNN 构建块来代替每个卷积
步长和每个池化层(因此完全消除了它们)。SPD-Conv 由一个空间到深度(SPD)层
和一个无卷积步长(Conv)层组成,可以应用于大多数 CNN 体系结构(如果不是全
部的话)。我们从两个最具代表性的计算机视觉任务:目标检测和图像分类来解释
这个新设计。然后,我们将 SPD-Conv 应用于 YOLOv5 和 ResNet,创建了新的
CNN 架构,并通过经验证明,我们的方法明显优于最先进的深度学习模型,特
别 是 在 处 理 低 分 辨 率 图 像 和 小 物 体 等 更 困 难 的 任 务 时 。 我 们 在
https://github.com/LabSAINT/SPD-Conv 上开放了源代码。
1.介绍
自 AlexNet[18]以来,卷积神经网络(CNNs)在许多计算机视觉任务中表现出
色。例如在图像分类方面,CNN 的知名模型有 AlexNet、VGGNet[30]、ResNet[13]
等;在目标检测中,包括 R-CNN 系列[9,28],YOLO 系列[26,4],SSD [24],
EfficientDet [34],等等。然而,所有这样的 CNN 模型在训练和推理中都需要“高
质量”的输入(精细图像、中型到大型对象)。例如,AlexNet 最初在 227×227 清晰
图像上进行训练和推理,但在将图像分辨率降低到 1/4 和 1/8 后,其分类准确率
分别下降了 14%和 30%,[16]。VGGNet 和 ResNet too[16]上也有类似的情况。在
目标检测的情况下,SSD 在 1/4 分辨率的图像或相当于 1/4 较小尺寸的目标上受
到显著的 mAP 损失 34.1,如文献[11]所描述的那样。事实上,小物体检测是一项
非常具有挑战性的任务,因为小物体固有的分辨率较低,而且可供模型学习的背
景信息也有限。此外,它们经常(不幸地)与同一图像中的大型目标共存,而大型
目标往往会主导特征学习过程,从而使小型目标无法被检测到。
在本文中,我们认为这种性能下降的根源在于现有 CNN 的一个常见的设计
缺陷。也就是说,使用卷积步长和/或池化,特别是在 CNN 体系结构的早期层中。
这种设计的负面影响通常不会表现出来,因为大多数被研究的场景都是“和蔼可
亲的”,图像有良好的分辨率,物体的大小也适中; 因此,存在大量的冗余像素信
息,跨跃卷积和池化可以方便地跳过,模型仍然可以很好地学习特征。然而,在
图像模糊或物体很小的更困难的任务中,冗余信息的大量假设不再成立,当前的
设计开始遭受细粒度信息丢失和学习特征不足的影响。
为了解决这个问题,我们为 CNN 提出了一个新的构建模块,称为 SPD-Conv,
完全替代(从而消除)卷积步长和池化层。SPD- conv 是一个空间到深度(SPD)层,
后面跟着一个无步长卷积层。SPD 层对特征映射 X 进行下采样,但保留了通道
维度中的所有信息,因此没有信息丢失。我们受到了图像转换技术[29]的启发,
该技术在将原始图像输入神经网络之前将其缩放,但我们基本上将其推广到整个
网络内部和整个网络中的下采样特征映射;此外,我们在每个 SPD 之后添加了一
个无步长卷积操作,以在增加的卷积层中使用可学习参数减少(增加的)通道数量。
我们提出的方法既通用又统一,因为 SPD-Conv (i)可以应用于大多数(如果不是
所有)CNN 架构,并且(ii)以相同的方式替代卷积步长和池化。综上所述,本文的
贡献如下:
1) 我们在现有的 CNN 体系结构中发现了一个常见的设计缺陷,并提出
了一个名为 SPD-Conv 的新构建块来代替旧的设计。SPD-Conv 下采样不丢失
可学习信息,完全摒弃了目前广泛使用的步长卷积和池化操作。
2) SPD-Conv 代表了一种通用和统一的方法,可以很容易地应用于大多
数(如果不是所有)基于深度学习的计算机视觉任务。
3) 利用目标检测和图像分类这两个最具代表性的计算机视觉任务,对
SPD-Conv 的性能进行了评价。具体而言,我们构建了 YOLOv5-SPD、
ResNet18-SPD 和 ResNet50-SPD,并在 COCO-2017、Tiny ImageNet 和 CIFAR-
10 数据集上对它们进行了评估,并与几种最先进的深度学习模型进行了比较。
结果表明,该算法在 AP 方面有显著提高,并获得了 top-1 精度,特别是在小
物体和低分辨率图像上。如图 1 所示。
4) SPD-Conv 可以很容易地集成到流行的深度学习库中,如 PyTorch 和
TensorFlow , 有 可 能 产 生 更 大 的 影 响 。 我 们 的 源 代 码 可 在
https://github.com/LabSAINT/SPD-Conv 获得。
图 1:比较 AP 中的小目标(APS)。“SPD”表示我们的方法。
本文的其余部分组织如下。第 2 节介绍了背景并回顾了相关工作。第 3 节描
述了我们提出的方法,第 4 节介绍了两个使用目标检测和图像分类的案例研究。
第 5 节提供了性能评估。本文的结论在第 6 部分。
2 前期工作及相关工作
我们首先提供这个领域的概述,更多地关注目标检测,因为它包含了图像分
类。
目前最先进的目标检测模型是基于 CNN 的,可以分为一级和二级检测器,
或基于锚框的或无锚框检测器。两阶段检测器首先生成粗区域提取,然后使用一
个 head(全连接网络)对每个提取进行分类和细化。相比之下,一级检测器跳过区
域提取步骤,直接在密集的位置采样上运行检测。基于锚框的方法使用锚框盒,
锚框盒是一个预定义的盒子集合,匹配训练数据中对象的宽度和高度,以提高训
练过程中的损失收敛性。我们提供了表 1,它对一些众所周知的模型进行了分类。
一般而言,一级检测器比二级检测器速度快,基于锚框的模型比无锚框的模
型更精确。因此,在后面的案例研究和实验中,我们更多地关注单级和基于锚框
的模型,即表 1 中的第一个行。一个典型的单阶段目标检测模型如图 2 所示。它
由一个基于 CNN 的视觉特征提取 backbone 和一个预测每个包含对象的类别和
边界框的检测头组成。在这两者之间,添加一个额外的 NECK 来组合多个尺度
的特征,以产生语义上强的特征,用于检测不同大小的目标。
表 1:OD 模型的分类
图 2:一级目标检测通道
2.1 小目标检测
传统上,检测小物体和大物体都被视为一个多尺度的物体检测问题。一种经
典的方法是图像金字塔[3],它将输入图像调整为多个尺度,并为每个尺度训练专
用检测器。为了提高精度,提出了 SNIP[31],它根据每个探测器中不同的物体大
小进行选择性反向传播。SNIPER[32]提高了 SNIP 的效率,它只处理每个目标实
例周围的背景区域,而不是图像金字塔中的每个像素,从而减少了训练时间。采
用另一种提高效率的方法,特征金字塔网络 FPN[20]在卷积层中利用横向连接将
固有的多尺度特征联系在一起,并使用自顶向下的结构将这些特征结合起来。随
后引入 PANet[22]和 BiFPN[34],利用较短的路径改善 FPN 的特征信息流。此外,
引入 SAN[15]将多尺度特征映射到尺度不变换子空间,使检测器对尺度变化具有
更强的鲁棒性。所有这些模型都一致使用卷积步长和最大池化,我们完全摆脱了
这一点。
2.2 低分辨率图像分类
解决这一挑战的早期尝试之一是[6],它提出了一个端到端 CNN 模型,在分
类之前添加一个超分辨率步骤。随后,[25]提出将从高分辨率训练图像中获得的
剩余15页未读,继续阅读
资源评论
长沙有肥鱼
- 粉丝: 1w+
- 资源: 15
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功