没有合适的资源?快使用搜索试试~ 我知道了~
用于高效物体检测的深度卷积神经网络的空间金字塔池化层1
需积分: 0 0 下载量 180 浏览量
2022-08-03
16:37:50
上传
评论
收藏 2.75MB PDF 举报
温馨提示
试读
17页
2.1 卷积层与特征图像 2.2 空间金字塔池化层 2.3 空间金字塔池化网络
资源详情
资源评论
资源推荐
Acta Physica Sinica
用于高效物体检测的深度卷积神经网络的空间金字塔
池化层
*
陈若愚
1)2)†
黄锟
1)
皮峻银
1)
赵占宇
1)
王旭薇
1)
刘宜奇
1)
刘少
文
1)
郭子沐
1)
1) (东北大学秦皇岛分校控制工程学院, 秦皇岛 066004)
2) (香港城市大学机械工程学系, 香港特别行政区 999077)
物体检测,旨在定位并识别图像中的物体,是计算机视觉的核心问题之一。现有的深度卷积神经网络
(CNN)需要固定大小(例如224×224)的输入图像。该要求是人工的,并且可能降低对任意大小或比例
的图像或子图像的识别精度。而目标检测需要对图像的生成区域进行多次的卷积运算,存在较大的物体检
测计算复杂度。为了消除上述限制,提出了用于深度卷积神经网络的空间金字塔池化策略。新的组合网络
称之为SPP-net,该网络可以生成固定长度的表示向量,而与图像大小或比例无关。在ImageNet分类数据
集上,验证了SPP-net可以提高卷积神经网络的准确率。基于R-CNN物体检测算法,与空间金字塔池化结
合,提出一种可以输入任意大小图片的高效物体检测方法。使用SPP-net用 于物体检测,可以对整个图像
只计 算一次特征图,然后在任意区域(子图像)中合并特征,以生成固定长度的表示向量以训练检测器,
避免了重复计算卷积特征。与R-CNN方法相比,SPP-net将 计算速率提高了24-102倍,同时在Pascal VOC
2007数据集上达到了更高的准确率。
关键词: 空间金字塔池化, 卷积神经网络, 物体检测, 高效
PACS: 07.05.Mh, 07.05.Pj
*
河北省高等学校科学研究重点项目(批准号: ZD2019305)、国家自然科学基金(批准号:61873307)资助项目
†
通信作者. E-mail: chenruoyu@neuq.edu.cn 电话: 13081868853
1
1 引 言
物体检测(object detection),是一种使计 算机能够在图像 中自动找到既定类别的物体,并判断物体的
类别、位置、大小及置信度的技术。我们的视觉,主要是由深度卷积引起的,正在见证我们的传统神经网
络
[1]
和大规模训练数据
[2]
的快速、革命性的变化。最近,基于卷积神经网络(convolutional neural network,
CNN)的方法在物体检测
[3] [4] [5]
的技术水平上有了很大的改进。
然而, 在CNN的训练和测试中存在一个 技术问题: 目前流行的CNN需要一个 固定的输入图像大小,
这限制了输入图像的长宽比和尺度。 当应用于任意大小的图像时,当前的方法主要是将输入图像裁剪为固
定大小,但裁剪区域可能不包含整个对象,而扭曲的内容可能导致不必要的几何失真。为什么CNN需要
一个固定的输入大小呢?CNN主要由两个部分组成:卷积层,以及随后的全连接层。因此,卷积层不需
要固定的图像大小,可以生成任意大小的特征图。另一方面,根据定义,全连接层需要有固定大小/长度
的输入。因此,固定图像尺寸的约束只来自于全连接层。
如何设计高效的物体检测算法,以减少检测系统整体的计算代价并提高 检 测性能是物体检测研究的主
要问题。本文中,我们提出了一种通过空间 金字塔池化层(spatial pyramid pooling)
[6] [7]
来消除卷积神经网
络需要固定的输入图片大小的限制,新的网络我们称为SPP-net。我们 基于一些已有的分类网络
[3] [8] [9]
或物
体检测算法的
[4]
网络,在网络的最后一层卷积层添加了空间金字塔池化层。空间金字塔池化层可以将卷积
层输出的任意大小的特征图像池化为固定长度的表示向量,然后与全连接层相 连接。基于R-CNN的目标
检测方法,我们将SPP-net作为其主网络,提出一个新的高效目标检测方法。除了对输入图像无固定大小
的限制,我们仅需要对整幅图像进行一次卷积运算,降低计算复杂度,避免了重复计算卷积特征。
在ImageNet数据集的一系列对照实验中,我们证明了在现有卷积神经网络
[3] [8] [9]
,经空间金字塔池化
层改进的四种不同的CNN架构,超过了原本的卷积神经网络的准确率。与R-CNN
[4]
方法相比, SPP-net将
计算速率提高了24-102倍,同时在Pascal VOC 2007数据集上达到了更高的准确率。
2 嵌入空间金字塔池化的卷积神经网络
2.1 卷积层与特征图像
我们首先考虑一个拥有七层的分类网络:Alexnet
[8]
。该网络由5个卷积层和2个全连接层组成。每个卷
2
积层后附加一个池化层,用于减半图片的感受野。最后一层卷积层将由张量重塑为特征向量,并连接全连
接层。全连接层包含两层隐藏层,每个隐藏层包 含2048个节点,输出层包含N个节点,其中N由分类的类
别数决定。除了输出层以softmax函数激活,每一层卷积层或全连接层后以relu函数激活,该网络的结构
如图1所示。该深度卷积神经网络需要固定大 小的输入图像,原因是全连接层依赖于长度固定的特征向量。
而卷积层采用滑动窗口的方式处理图像,输入图片大小不同不影响卷积的运算,且输出图像与输出图像的
长宽比保持大致相同。这里 输出的图像称为特征图像
[1]
,这些图 像不仅包括了响应的强度也包括了空间位
置信息。
图 1: 用于实验的Alexnet的结构,网络的输入大小固定为 224×224×3
Fig 1: The structure of alexnet for experiment, the input size of network is fixed as 224 × 224 × 3.
我们以在Imagenet数据集
[2]
上官方训练好权重初始化网络的卷积层部分的参数,以非固定大小的图像
作为输入并得到特征图像。在图2中,我们以可视化的形式将特征图像展示出来,它们是第五层卷积层中
滤波器的卷积运算的输出结果。图2(c)展示了在ImageNet数据集中目标区域 响应最大的特征图片的单
通道图片。我们可以看到不同的滤波器可以被特定的语义激活,比如圆形物体激 活,三角形物体激活,倒
三角形物体激活。这些输入图像中的形状会在特征图像上相应位置被激活。
值得一提的是我们在生成图2的特 征图像时没有固定输入图像的大小,深度卷积层生成这些特征图像
的过程就像传统方法产生特征图像一样
[10] [11]
,在传统方法中,尺度不变特征变换(SIFT)特征
[12]
或者图像
块被密集提取(densely extract)并编码。编码的方式包括矢量量化(vector quantization)
[14] [15]
,稀疏编
码(sparse coding)
[16] [17]
。这些编码的特征包括图像特征,然后由词袋模型(Bag-of-Words,BoW)或者
空间金字塔池化
[14] [18]
。所以,深度卷积特征也可以通过相似的方法池化。
3
图 2: 可视化特征图像。(a)PASCAL VOL 2007数据集中的两张图像。(b)conv5层的某些特征图像。箭
头指向区域为图像中最强相应和他们的位置。(c)ImageNet数据集中对这些滤波器产生强相应的图像。
绿色框标记了产生最大响应的感受区域
Fig 2: Visual feature image. (a) Two images in the Pascal Vol 2007 dataset. (b) Some characteristic
images of conv5 layer. The arrow pointing area is the strongest corresponding and their position in the
image. (c) The Imagenet dataset produces strong corresponding images for these filters. The green box
marks the area of perception that produces the greatest response.
2.2 空间金字塔池化层
卷积层接收任意大小的输入,并可以产生变大小的输出,而全连接层需要固定长度的特征向量。分类
器(SVM/softmax)或全连接层需要固定大小的输入向量。词袋模型可以通过将特征池化到一起的方法
产生固定长度的特征向量。相比于词袋 模型,空间金字塔池化方法可以保留更 多的空间信息,因此具有更
好的性能。空间金字塔池化的每个区域的大 小与图像大小成固定的比例,因此池化区域的数量是固定的,
与图像大小无关。这种新方法与以往的滑窗型池化方式不同——滑窗的数量取决于输入尺寸。
为了使深度卷积神经网络可以接收任意大 小的输入,我们将最后一个池化层(最后一个卷积层之后,
例如Alexnet的第五层卷积层)替换为空间金字塔池化层,图3介绍了我们的方法。在每个空间区域 之后,
我们将每个滤波器得到的结果进行最大池化。空间金字塔池化的输出结果是M × K维的向量,其中M是空
间区域的总数,最后一层卷积层滤波器个数为K。这个固定维数的向量可以被用作全连接层的输入。
4
剩余16页未读,继续阅读
白羊的羊
- 粉丝: 37
- 资源: 281
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0