无卷积步长或池化:用于低分辨率图像和小物体的新CNN模块SPD-Conv_SPD-Convyolov8资源-CSDN文库

需积分: 23 195 浏览量 2022-10-06 16:03:27 上传评论 4 收藏 1.91MB PDF 举报

资源推荐

资源详情

资源评论

无卷积步长或池化:用于低分辨率图像和小

物体的新 CNN 模块 SPD-Conv

摘要

卷积神经网络(CNNs)在图像分类和目标检测等计算机视觉任务中取得了显

著的成功。然而，当图像分辨率较低或物体较小时，它们的性能会迅速下降。在

本文中，我们指出这根源为现有 CNN 常见的设计体系结构中一个有缺陷，即使

用卷积步长和/或池化层，这导致了细粒度信息的丢失和较低效的特征表示的学

习。为此，我们提出了一个名为 SPD-Conv 的新的 CNN 构建块来代替每个卷积

步长和每个池化层(因此完全消除了它们)。SPD-Conv 由一个空间到深度(SPD)层

和一个无卷积步长(Conv)层组成，可以应用于大多数 CNN 体系结构(如果不是全

部的话)。我们从两个最具代表性的计算机视觉任务:目标检测和图像分类来解释

这个新设计。然后，我们将 SPD-Conv 应用于 YOLOv5 和 ResNet，创建了新的

CNN 架构，并通过经验证明，我们的方法明显优于最先进的深度学习模型，特

别是在处理低分辨率图像和小物体等更困难的任务时。我们在

https://github.com/LabSAINT/SPD-Conv 上开放了源代码。

1.介绍

自 AlexNet[18]以来，卷积神经网络(CNNs)在许多计算机视觉任务中表现出

色。例如在图像分类方面，CNN 的知名模型有 AlexNet、VGGNet[30]、ResNet[13]

等;在目标检测中，包括 R-CNN 系列[9,28]，YOLO 系列[26,4]，SSD [24]，

EfficientDet [34]，等等。然而，所有这样的 CNN 模型在训练和推理中都需要“高

质量”的输入(精细图像、中型到大型对象)。例如，AlexNet 最初在 227×227 清晰

图像上进行训练和推理，但在将图像分辨率降低到 1/4 和 1/8 后，其分类准确率

分别下降了 14%和 30%，[16]。VGGNet 和 ResNet too[16]上也有类似的情况。在

目标检测的情况下，SSD 在 1/4 分辨率的图像或相当于 1/4 较小尺寸的目标上受

到显著的 mAP 损失 34.1，如文献[11]所描述的那样。事实上，小物体检测是一项

非常具有挑战性的任务，因为小物体固有的分辨率较低，而且可供模型学习的背

景信息也有限。此外，它们经常(不幸地)与同一图像中的大型目标共存，而大型

目标往往会主导特征学习过程，从而使小型目标无法被检测到。

在本文中，我们认为这种性能下降的根源在于现有 CNN 的一个常见的设计

缺陷。也就是说，使用卷积步长和/或池化，特别是在 CNN 体系结构的早期层中。

这种设计的负面影响通常不会表现出来，因为大多数被研究的场景都是“和蔼可

亲的”，图像有良好的分辨率，物体的大小也适中; 因此，存在大量的冗余像素信

息，跨跃卷积和池化可以方便地跳过，模型仍然可以很好地学习特征。然而，在

图像模糊或物体很小的更困难的任务中，冗余信息的大量假设不再成立，当前的

设计开始遭受细粒度信息丢失和学习特征不足的影响。

为了解决这个问题，我们为 CNN 提出了一个新的构建模块，称为 SPD-Conv，

完全替代(从而消除)卷积步长和池化层。SPD- conv 是一个空间到深度(SPD)层，

后面跟着一个无步长卷积层。SPD 层对特征映射 X 进行下采样，但保留了通道

维度中的所有信息，因此没有信息丢失。我们受到了图像转换技术[29]的启发，

该技术在将原始图像输入神经网络之前将其缩放，但我们基本上将其推广到整个

网络内部和整个网络中的下采样特征映射;此外，我们在每个 SPD 之后添加了一

个无步长卷积操作，以在增加的卷积层中使用可学习参数减少(增加的)通道数量。

我们提出的方法既通用又统一，因为 SPD-Conv (i)可以应用于大多数(如果不是

所有)CNN 架构，并且(ii)以相同的方式替代卷积步长和池化。综上所述，本文的

贡献如下:

1）我们在现有的 CNN 体系结构中发现了一个常见的设计缺陷，并提出

了一个名为 SPD-Conv 的新构建块来代替旧的设计。SPD-Conv 下采样不丢失

可学习信息，完全摒弃了目前广泛使用的步长卷积和池化操作。

2） SPD-Conv 代表了一种通用和统一的方法，可以很容易地应用于大多

数(如果不是所有)基于深度学习的计算机视觉任务。

3）利用目标检测和图像分类这两个最具代表性的计算机视觉任务，对

SPD-Conv 的性能进行了评价。具体而言，我们构建了 YOLOv5-SPD、

ResNet18-SPD 和 ResNet50-SPD，并在 COCO-2017、Tiny ImageNet 和 CIFAR-

10 数据集上对它们进行了评估，并与几种最先进的深度学习模型进行了比较。

结果表明，该算法在 AP 方面有显著提高，并获得了 top-1 精度，特别是在小

物体和低分辨率图像上。如图 1 所示。

剩余15页未读，继续阅读

内容反馈

长沙有肥鱼

粉丝: 1w+
资源: 15

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip