没有合适的资源?快使用搜索试试~ 我知道了~
基于空洞卷积金字塔的目标检测算法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 93 浏览量
2022-12-15
14:21:35
上传
评论
收藏 580KB DOCX 举报
温馨提示
试读
16页
基于空洞卷积金字塔的目标检测算法.docx
资源推荐
资源详情
资源评论
目标检测是现实生活中最广泛的应用之一,其任务在于关注图片中的特定目标。一般
来说,通用性目标检测包含两个子任务:一是判定特定目标的类别概率,二是给出该目标
的具体位置。目标检测在实际应用中有着非常重要的作用,可以运用于人脸识别、行人重
识别、工业检测、车牌号识别、医学影像等具体场景,涉及安防领域、工业领域、军事领
域、交通领域、医疗领域和生活领域等。随着机器学习的蓬勃发展,普通场景下目标检测
的精度已经很高,但针对复杂环境下目标数量众多、目标尺度多变、目标遮挡严重等问
题,仍是国内外科研人员的研究重点
[1]
。
传统的基于手工特征构建的目标检测算法过程复杂、计算量大,但为目标检测的发展
奠定了理论基础。作为传统领域最经典的算法,文献[2]的目标检测器通过多尺度滑动窗口
来生成可能存在的具有不同宽高比的目标区域,再利用模板进行目标匹配。另外一个与之
相似的传统方法是利用梯度直方图(histogram of oriented gradient, HOG)
[3]
特征和支持向量机
(support vector machine, SVM)
[4]
来进行目标分类。
随着计算机视觉技术的长足发展,基于深度学习的目标检测开始成为研究热门。在
2012 年 ImageNet 竞赛上取得冠军的 AlexNet
[5]
,是首个在大规模图像识别问题取得突破性
进展的深度神经网络,并由此开启了深度神经网络在计算机视觉领域的广泛应用。基于深
度神经网络的目标检测算法按照处理分类和回归的方法差异,又可划分为单阶段(one stage)
和两阶段(two stage)两大派系。
两阶段算法中,以 RCNN
[6]
为代表的目标检测算法,其核心是采用区域提议方法,对
输入图像进行选择性搜索并生成区域建议框,然后对每一个区域建议框使用卷积神经网络
(convolutional neural networks, CNN)提取特征,再使用分类器进行分类。该类方法最大的短
板是冗余框的重复计算,导致最快的算法
[7]
在 GPU 上也只有 7 帧/s 的推理速度。另一类单
阶段目标检测算法是以 YOLO
[8-10]
和 SSD
[11]
为代表的基于直接回归的算法。这类算法将单个
神经网络应用于整幅图像,并在最终的特征图上划分网格区域,同时预测每个区域的边界
框和目标概率,在牺牲一定精度的同时大大减少了重复计算。
经过一系列的变种,这两类方法的共同点逐渐演变为在检测过程中都需要预先生成大
量锚框(anchor),这些算法统称为基于锚框(anchor based)的目标检测算法。锚框是在训练之
前,在训练集上利用聚类算法得出的一组矩形框,代表数据集中目标主要分布的长宽尺
寸。在推理时先在特征图上由这些锚框提取 n 个候选矩形框,再对这些矩形框做进一步的
分类和回归。相对 Two Stage 算法来说,对候选框的处理依然经过前背景粗分类和多类别
细分类两步。
单阶段目标检测算法由于缺少了两阶段算法的精细处理,在面对目标多尺度、遮挡等
问题时表现不佳。另外,Anchor Based 算法虽然在一定程度上缓解了选择性搜索带来的候
选框计算量爆炸的问题,但每个网格中大量不同尺寸锚框的生成仍然造成了计算冗余,最
重要的是锚框的生成依赖于大量的超参设置,手动调参会严重影响目标的定位精度和分类
效果。
针对以上问题,本文提出了一种基于空洞卷积金字塔的目标检测算法(atrous
convolution embedded feature pyramid network, ACFPN),能够有效地解决因尺度和遮挡引起
的漏检、错检问题,主要创新点如下:
1)设计多尺寸的空洞卷积构成的混合感受野模块(hybrid receptive field module,
HRFM),结合特征金字塔多尺度输出特性,在控制模型参数量的条件下,增大感受野获取
更多全局特征细节信息,以解决目标的遮挡问题;
2)改进特征金字塔网络的结构,提出了低层嵌入特征金字塔模块(lower embedding
feature pyramid module, LEFPM),解决目标检测在处理多尺度变化上不足,融合浅层特征
信息和高层特征信息,并在融合后的输出增加归一化处理和激活函数,优化模型训练;
3)引入 Anchor Free 机制,结合上述两点设计,减少冗余候选框带来的无效计算,提
高了定位精度,有效解决漏检等问题。
1. 相关工作
1.1 特征金字塔
很多传统目标检测方法都会使用图像金字塔来解决目标的多尺度问题。图像金字塔首
先将不同尺寸的图片分别输入网络中得到对应尺寸的特征图,然后对这些不同尺寸的特征
图进行预测。这种方法虽然可以在一定程度上应对尺寸变化,但是带来了成倍的计算量。
进入深度学习时代后,目标检测器在精度方面取得了显着提高,文献[12]提出了 SPPNet,
该算法使用空间金字塔池化策略,对输入任意尺寸图像都能够产生固定大小的特征图。早
期基于深度模型的检测器只在网络的顶层进行检测,特征单一且适应性差。文献[13]基于
Faster RCNN
[7]
提出了特征金字塔网络(feature pyramid network, FPN),FPN 具有横向连接的
自顶向下体系结构。本文改进特征金字塔网络结构,提出了 LEFPM 模块。两者结构对比
如图 1 所示。用于在所有级别特征中构建高级语义信息,由于在检测多尺度目标时效果显
著,FPN 已经成为众多深度检测器的标准配置。
y(i,j)=∑h=1H∑w=1Wx(i+ar×h,j+ar×w)×w(h,w)y(i,j)=∑h=1H∑w=1Wx(i+ar×h,j+ar×w)×w(h,w)
(1)
式中,H、W 分别表示输入图像(或前一层特征图)的长和宽;x(i,j)x(i,j)表示该输入图
像上(i,j)位置的像素值(特征值);ar 表示空洞率;y(i,j)y(i,j)表示该输入图像经过空洞卷积
后的输出。
空洞卷积可以在不损失特征图分辨率的情况下,有效聚合图像全局特征信息,从而增
加其感受野,解决目标的遮挡问题。同时因为其填充值为 0,所以不会增加额外的计算开
销。
1.3 Anchor Free 机制
由于密集的锚框可有效提高待测目标的召回率,加之操作简单,现阶段基于 Anchor
Based 的目标检测算法依然占据着深度目标检测算法的主流,包括最经典的 Fast R-
CNN
[15]
、SSD
[11]
、YOLOv2
[9]
、YOLOv3
[10]
等目标检测算法。
然而在基于 Anchor Based 的检测机制中,相关超参的设置严重依赖较强的先验知识。
同时,根据预设产生的冗余框非常多,使得正负样本严重不平衡。因此,Anchor Free 方法
被越来越多的研究者探索。YOLOv1
[8]
在目标中心附近的点处预测边界框实现了 Anchor
Free,遗憾的是,其后续版本为了追求高召回率,依然采用了 Anchor Based 路线。在
Anchor Free 算法中,基于关键点的方法(如 CornerNett
[16]
和 CenterNet
[17]
)本质上都是密集预
测的手段,庞大的解空间使得简单的 Anchor Free 方法容易得到过多的误检,而获得高召回
率、低精确率的检测结果。
FCOS
[18]
方法从像素点入手,一方面通过重新赋予权重来提高检测质量,另一方面通
过加入 FPN 在一定程度上缓解了高度重合带来的影响。
2. 基于空洞卷积金字塔的目标检测算法
2.1 整体框架
本文的 ACFPN 算法以一阶段全卷积目标检测算法 FCOS 为基准(Baseline),并引入了
FCOS 特有的 Achor Free 机制。ACFPN 主要由 4 部分组成:主干网络、LEFPM、HRFM、
检测模块,如图 2 所示。其中,LEFPM 和 HRFM 两个模块都作用于主干网络所产生的特
征图,并在整个架构中执行不同的功能。
剩余15页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3683
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功