【免费】用于高效物体检测的深度卷积神经网络的空间金字塔池化层1资源-CSDN文库

需积分: 0 79 浏览量 2022-08-03 16:37:50 上传评论 1 收藏 2.75MB PDF 举报

【空间金字塔池化层】空间金字塔池化层（Spatial Pyramid Pooling Layer，简称SPP-layer）是深度卷积神经网络（CNN）中的一个重要组件，它解决了传统CNN对输入图像大小的固定需求，使得网络能够处理不同尺度和比例的图像。在物体检测任务中，这一特性尤为关键，因为真实世界中的物体大小和位置各不相同。 2.1 【卷积层与特征图像】卷积层是CNN的基础，通过对输入图像应用可学习的滤波器（权重），提取图像的特征。每个滤波器在图像上滑动，产生特征映射（Feature Maps）。连续的卷积层可以逐层捕获更复杂的模式。特征图像则是卷积层的输出，它们包含了图像的抽象特征，这些特征对于识别和定位物体至关重要。 2.2 【空间金字塔池化层】空间金字塔池化层（SPP-layer）是对特征图像进行操作的层，其目的是将任意大小的特征图像转换为固定长度的向量，以便于全连接层处理。SPP-layer采用了空间金字塔结构，将特征图像划分为多个不同尺度的子区域，每个子区域执行最大池化操作。这样，无论输入图像的大小如何，都能生成固定长度的表示，从而消除了对固定输入尺寸的需求。 2.3 【空间金字塔池化网络】 SPP-net（Spatial Pyramid Pooling Network）是结合了SPP-layer的CNN模型。在SPP-net中，最后一层卷积层后的SPP-layer允许网络接受不同大小的输入图像，并保持全连接层的输入尺寸恒定。这降低了计算复杂性，因为在检测物体时，只需对整个图像进行一次卷积运算，然后在任意感兴趣的区域（子图像）合并特征，生成固定长度的表示向量，用于训练检测器，避免了多次重复计算卷积特征。在物体检测领域，SPP-net显著提高了效率。例如，当与R-CNN（Regions with Convolutional Neural Networks）结合时，SPP-net能够将计算速度提升24-102倍，同时在Pascal VOC2007数据集上达到更高的准确性。这种方法不仅减少了计算成本，还增强了对不同尺寸和比例物体的检测能力。总结来说，空间金字塔池化层和SPP-net是解决深度学习中物体检测问题的有效手段，它们通过灵活地处理不同尺寸的输入，提高了模型的泛化能力和效率。通过将SPP-layer嵌入到现有的CNN架构中，如Alexnet，可以进一步优化网络性能，实现高效且精确的物体检测。

资源详情

资源评论

资源推荐

Acta Physica Sinica

用于高效物体检测的深度卷积神经网络的空间金字塔

池化层

陈若愚

1)2)†

黄锟

皮峻银

赵占宇

王旭薇

刘宜奇

刘少

文

郭子沐

1) (东北大学秦皇岛分校控制工程学院, 秦皇岛 066004)

2) (香港城市大学机械工程学系, 香港特别行政区 999077)

物体检测，旨在定位并识别图像中的物体，是计算机视觉的核心问题之一。现有的深度卷积神经网络

（CNN）需要固定大小（例如224×224）的输入图像。该要求是人工的，并且可能降低对任意大小或比例

的图像或子图像的识别精度。而目标检测需要对图像的生成区域进行多次的卷积运算，存在较大的物体检

测计算复杂度。为了消除上述限制，提出了用于深度卷积神经网络的空间金字塔池化策略。新的组合网络

称之为SPP-net，该网络可以生成固定长度的表示向量，而与图像大小或比例无关。在ImageNet分类数据

集上，验证了SPP-net可以提高卷积神经网络的准确率。基于R-CNN物体检测算法，与空间金字塔池化结

合，提出一种可以输入任意大小图片的高效物体检测方法。使用SPP-net用于物体检测，可以对整个图像

只计算一次特征图，然后在任意区域（子图像）中合并特征，以生成固定长度的表示向量以训练检测器，

避免了重复计算卷积特征。与R-CNN方法相比，SPP-net将计算速率提高了24-102倍，同时在Pascal VOC

2007数据集上达到了更高的准确率。

关键词: 空间金字塔池化, 卷积神经网络, 物体检测, 高效

PACS: 07.05.Mh, 07.05.Pj

河北省高等学校科学研究重点项目(批准号: ZD2019305)、国家自然科学基金(批准号：61873307)资助项目

†

通信作者. E-mail: chenruoyu@neuq.edu.cn 电话: 13081868853

1 引言

物体检测(object detection)，是一种使计算机能够在图像中自动找到既定类别的物体，并判断物体的

类别、位置、大小及置信度的技术。我们的视觉，主要是由深度卷积引起的，正在见证我们的传统神经网

络

[1]

和大规模训练数据

[2]

的快速、革命性的变化。最近，基于卷积神经网络(convolutional neural network,

CNN)的方法在物体检测

[3] [4] [5]

的技术水平上有了很大的改进。

然而，在CNN的训练和测试中存在一个技术问题：目前流行的CNN需要一个固定的输入图像大小，

这限制了输入图像的长宽比和尺度。当应用于任意大小的图像时，当前的方法主要是将输入图像裁剪为固

定大小，但裁剪区域可能不包含整个对象，而扭曲的内容可能导致不必要的几何失真。为什么CNN需要

一个固定的输入大小呢？CNN主要由两个部分组成：卷积层，以及随后的全连接层。因此，卷积层不需

要固定的图像大小，可以生成任意大小的特征图。另一方面，根据定义，全连接层需要有固定大小/长度

的输入。因此，固定图像尺寸的约束只来自于全连接层。

如何设计高效的物体检测算法，以减少检测系统整体的计算代价并提高检测性能是物体检测研究的主

要问题。本文中，我们提出了一种通过空间金字塔池化层(spatial pyramid pooling)

[6] [7]

来消除卷积神经网

络需要固定的输入图片大小的限制，新的网络我们称为SPP-net。我们基于一些已有的分类网络

[3] [8] [9]

或物

体检测算法的

[4]

网络，在网络的最后一层卷积层添加了空间金字塔池化层。空间金字塔池化层可以将卷积

层输出的任意大小的特征图像池化为固定长度的表示向量，然后与全连接层相连接。基于R-CNN的目标

检测方法，我们将SPP-net作为其主网络，提出一个新的高效目标检测方法。除了对输入图像无固定大小

的限制，我们仅需要对整幅图像进行一次卷积运算，降低计算复杂度，避免了重复计算卷积特征。

在ImageNet数据集的一系列对照实验中，我们证明了在现有卷积神经网络

[3] [8] [9]

，经空间金字塔池化

层改进的四种不同的CNN架构，超过了原本的卷积神经网络的准确率。与R-CNN

[4]

方法相比， SPP-net将

计算速率提高了24-102倍，同时在Pascal VOC 2007数据集上达到了更高的准确率。

2 嵌入空间金字塔池化的卷积神经网络

2.1 卷积层与特征图像

我们首先考虑一个拥有七层的分类网络：Alexnet

[8]

。该网络由5个卷积层和2个全连接层组成。每个卷

积层后附加一个池化层，用于减半图片的感受野。最后一层卷积层将由张量重塑为特征向量，并连接全连

接层。全连接层包含两层隐藏层，每个隐藏层包含2048个节点，输出层包含N个节点，其中N由分类的类

别数决定。除了输出层以softmax函数激活，每一层卷积层或全连接层后以relu函数激活，该网络的结构

如图1所示。该深度卷积神经网络需要固定大小的输入图像，原因是全连接层依赖于长度固定的特征向量。

而卷积层采用滑动窗口的方式处理图像，输入图片大小不同不影响卷积的运算，且输出图像与输出图像的

长宽比保持大致相同。这里输出的图像称为特征图像

[1]

，这些图像不仅包括了响应的强度也包括了空间位

置信息。

图 1: 用于实验的Alexnet的结构，网络的输入大小固定为 224×224×3

Fig 1: The structure of alexnet for experiment, the input size of network is ﬁxed as 224 × 224 × 3.

我们以在Imagenet数据集

[2]

上官方训练好权重初始化网络的卷积层部分的参数，以非固定大小的图像

作为输入并得到特征图像。在图2中，我们以可视化的形式将特征图像展示出来，它们是第五层卷积层中

滤波器的卷积运算的输出结果。图2（c）展示了在ImageNet数据集中目标区域响应最大的特征图片的单

通道图片。我们可以看到不同的滤波器可以被特定的语义激活，比如圆形物体激活，三角形物体激活，倒

三角形物体激活。这些输入图像中的形状会在特征图像上相应位置被激活。

值得一提的是我们在生成图2的特征图像时没有固定输入图像的大小，深度卷积层生成这些特征图像

的过程就像传统方法产生特征图像一样

[10] [11]

，在传统方法中，尺度不变特征变换（SIFT）特征

[12]

或者图像

块被密集提取（densely extract）并编码。编码的方式包括矢量量化（vector quantization）

[14] [15]

，稀疏编

码（sparse coding）

[16] [17]

。这些编码的特征包括图像特征，然后由词袋模型（Bag-of-Words，BoW）或者

空间金字塔池化

[14] [18]

。所以，深度卷积特征也可以通过相似的方法池化。

剩余16页未读，继续阅读

评论收藏

内容反馈

白羊的羊

粉丝: 45
资源: 280

用于高效物体检测的深度卷积神经网络的空间金字塔池化层1

评论0

最新资源

用于高效物体检测的深度卷积神经网络的空间金字塔池化层1

评论0

用于高效物体检测的深度卷积神经网络的空间金字塔池化层2

深度学习（十九）基于空间金字塔池化的卷积神经网络物体检测 - hjimce的专栏 - CSDN博客1

基于空间金字塔池化的深度卷积神经网络多聚焦图像融合.pdf

基于空间金字塔池化和深度卷积神经网络的作物害虫识别.pdf

高性能：池化技术的应用场景

关于利用深度卷积神经网络增强基于层的目标检测(1)的介绍说明.rar

基于区域信息的深度卷积神经网络研究综述.pdf

基于卷积神经网络的乳腺疾病检测算法.pdf

《深度卷积神经网络在计算机视觉中的应用研究综述》阅读笔记 计算机视觉.pdf

基于卷积神经网络的水下目标声呐图像识别方法.pdf

一文让你彻底了解卷积神经网络.docx

添加注意力机制的卷积神经网络在安全帽佩戴检测的应用.pdf

基于深度学习的复杂场景下小目标识别研究.pdf

卷积神经网络(CNN,ConvNet)及其原理详解.zip

Python人工智能课程 AI算法课程 Python机器学习与深度学习 11.卷积神经网络 共76页.pdf

基于空间金字塔的卷积神经网络图像分类

Spatial Pyramid Pooling in Deep Convolutional Networks for Visua

基于卷积神经网络的语义分割算法研究.pdf

YOLOv4 / Scaled-YOLOv4 / YOLO-用于对象检测的神经网络

SPP-NET翻译1

深度学习目标识别必读经典论文

SSD+LeNet+SPPNet

基于深度学习的三维空间的人体行为图像扫描算法研究.pdf

基于深度学习的遥感图像目标检测方法.pdf

Spatial Pyramid Pooling Net 介绍

108.特征金字塔与图像金字塔1

deeplab v3+.pdf

最新资源

《深度卷积神经网络在计算机视觉中的应用研究综述》阅读笔记计算机视觉.pdf

Python人工智能课程 AI算法课程 Python机器学习与深度学习 11.卷积神经网络共76页.pdf