深度学习中的单阶段小目标检测方法综述.docx资源-CSDN文库

版权申诉

文档资料

119 浏览量 2022-11-02 16:12:16 上传评论收藏 631KB DOCX 举报

资源详情

资源评论

目标检测是计算机视觉的一部分,根据整张图像内容进行描述,并结合目标

物体的特征信息,确定该物体的类别与位置。目标检测将目标的定位和识别合

二为一,能够在特定的环境下实时且准确地检测出目标。目标检测技术常用于

人脸检测、智慧交通、无人驾驶、遥感目标检测、行人计数、安全系统等各大

领域。随着深度学习的发展 , 卷积神经网络（ convolutional neural

networks,CNN）

[1]

被广泛应用,基于深度学习的目标检测技术将目标检测推向

发展新高潮。其中,在追求速度与精度并行的算法中,基于深度学习的单阶段目

标检测算法脱颖而出。与其他深度学习目标检测算法不同的是,单阶段目标检

测算法结构简单,可以直接检测图像输出结果,没有候选区域的分类,因此相比

其他深度学习目标检测算法速度更快,计算效率更高。典型的单阶段目标检测

算法包括 YOLO（you only look once）系列

[2,3,4]

和 SSD（single shot multibox

detector）系列

[5,6,7,8,9]

。但在单阶段目标检测算法的研究过程中出现了很多问题,

例如模型检测精度较低,尤其对小目标及遮挡目标的检测更为困难。为解决单

阶段目标检测与两阶段目标检测之间的精度差距,Lin 等人

[10]

提出 RetinaNet,解

决了正负样本不均衡的问题,改进了背景样本的权重,使得模型更能关注较难检

测的样本。

由于小目标物体分辨率较低且特征信息不明显,如何更精准地检测到小目

标是目标检测领域的热点研究问题。文献[11]针对视频目标检测算法面临的挑

战,从骨干网络、算法结构和数据集等方面总结了改进后的视频目标检测算法

的优势和劣势。文献[12]针对边界/语义增强、全局/局部结合和辅助网络三方

面的基于深度学习的显著性目标检测进行对比分析。文献[13]总结了目标类别

检测核心技术与该研究的难点和发展方向。文献[14]从单阶段目标检测、两阶

段目标检测以及结合生成对抗网络等方面总结了各种算法的改进过程。这些综

述在目标检测的基础上从数据类别、检测特点以及算法改进等方面总结了当前

主流的目标检测研究趋势。但目前存在的基于深度学习的目标检测文献综述仅

综合了各种算法的优缺点,未系统地从某一方面归纳目标检测的改进方法。

综上所述,本文从单阶段目标检测算法的角度出发,总结了在此基础上改进

的适用于小目标检测的方法。通过优化 Anchor Box、引入注意力机制、优化

残差网络和密集连接模块、特征融合、特征增强、引入其他网络、改进损失函

数等几个方面的研究,总结归纳了基于深度学习的单阶段小目标检测的最新研

究成果及未来的研究方向。

1 小目标检测简介

1.1 小目标的定义

在目标检测中对小目标的定义有两种方式,即相对尺寸的定义和绝对尺寸

的定义。相对尺寸是根据国际光学工程学会（ Society of Photo-Optical

Instrumentation Engineers,SPIE）的定义,小目标为在 256×256 像素的图像中

目标面积小于 80 个像素,即小于 256×256 像素的 0.12%就为小目标

[15]

。另一

种是绝对尺寸的定义,在 MS COCO

[16]

数据集中,尺寸小于 32×32 像素的目标被

认为是小目标。2016 年,Chen 等人

[17]

将小目标定义为在 640×480 像素的图像

中,16×16 像素到 42×42 像素的目标。Braun 等人

[18]

针对交通场景中的行人和

非机动车驾驶人等数据,认为在 30 像素到 60 像素且被遮挡小于 40%的物体是

小目标物体。在航空图像数据集 DOTA

[19]

与人脸检测数据集 WIDER FACE

[20]

中将像素值范围在 10 像素至 50 像素之间的目标定义为小目标。在行人识别数

据集 CityPersons

[21]

中,定义高度小于 75 像素的目标为小目标。对于航空图像

中的行人数据集 TinyPerson

[22]

,则将小目标定义为分辨率在 20 像素至 32 像素

之间,而且进一步将像素值范围在 2 像素至 20 像素之间的目标定义为微小目标。

总的来说,小目标没有精确唯一的定义,需要根据应用场景确定。

1.2 小目标检测的难点

小目标物体在图像中覆盖的区域较小,像素值在几十像素甚至几像素之间,

其分辨率较低,特征信息涵盖较少,缺乏特征表达能力。经调研,导致小目标物体

在检测过程中精度较低的原因主要有以下几点：

（1）特征信息较少。在常用的小目标数据集中,小目标样本分辨率较低,标

注面积占比小,包含的特征信息不明显,且易受噪音点的干扰,进而导致模型无

法对小目标进行精确定位。

（2）卷积神经网络的下采样率较大。卷积神经网络及其衍生算法是小目

标检测的主流算法。在检测过程中,经过不断地下采样和特征提取,输出的特征

图尺度会不断缩小。这很有可能导致下采样步幅大于小目标的尺寸,以致向下

传递的特征图中可能未包含小目标的特征信息。

（3）数据集中正负样本分布不均。在大多数目标检测数据集中包含的小

目标样本数占比较小,而大中目标样本数量居多。在训练过程中,模型会更关注

大中目标样本,而忽略小目标样本,使得小目标样本只出现在样本集中很少被训

练到的位置,为网络适应数据集带来困难。

（4）先验框设置不合理。在设置 Anchor Box 时,可能只有一小部分与小

目标的真实目标框（Ground Truth）重叠,并且 Anchor Box 宽高比多变,很难精

确定位到小目标物体。

（5）交并比阈值设置不合理。目前大部分检测器的匹配策略是用检测生

成的 Bounding Box 与 Ground Truth 之间的交并比（intersection over uion,IoU）

来划分正负样本。一般设定 Bounding Box 与 Ground Truth 之间 IoU≥0.5 所

对应的 Anchor Box 中的目标为正样本,其余为负样本。自定义阈值会对正负样

本的选取造成很大的影响,而且该匹配方式更适合大中目标样本,容易出现小目

标样本匹配较少、大中目标样本匹配较多的问题。

2 基于深度学习的单阶段小目标检测优化方法

2.1 优化 Anchor Box

YOLO V3 算法使用 K-means 聚类

[23]

从 Ground Truth 中得到一些不同宽

高比的框,即 Anchor Box,并通过实验的方式在这些 Anchor Box 中找出了 9 个

最优值。但通过这种方式产生的 Anchor Box 往往定位不准确,容易造成正负样

本不均衡的问题。同时,基于不同面积和宽高比的锚点框是一组预先定义的超

参

[24]

,通常的锚点框分为大、中、小三类尺寸,对于小目标数据集,固定锚点框得

到候选框的设计方式会约束目标检测模型。

周慧等人

[25]

提出自适应锚点框（adaptive anchor boxes,AAB）。该方法

采用基于形状相似距离的 DBSCAN （ density-based spatial clustering of

application with noise）聚类算法

[26]

生成 Anchor Box,提高了对目标区域的定位

技术。采用基于形状相似距离的 DBSCAN 聚类结果如图 1 所示。

图 1

通过改变聚类机制可以充分体现不同聚类算法对训练产生的 Anchor Box

的友好程度。但一些聚类算法对输入参数较敏感,不能处理离群点或边缘点,对

于密度不均匀的数据集,聚类效果差异较大。

2.2 优化网络模型

2.2.1 优化骨干网络

在目标检测的过程中往往需要骨干网络（BackBone）作为目标的特征提

取器,常见的骨干网络有 VGG-Net

[32]

、SPPNet

[33]

、ResNet

[34]

、MobileNet

[35]

、

DenseNet

[36]

、GoogleNet

[37]

、ShuffleNet

[38]

等。

YOLO V3 模型采用 DarkNet-53 作为骨干网络 , 但对于特定的数据

集,BackBone 中不同尺度对应的特征重要性不同。MobileNet_YOLO V3

[39]

模型

采用 MobileNet 作为骨干网络,将标准卷积换为深度可分离卷积,使用逐通道卷

积和逐点卷积的方式,优化了标准卷积中对所有通道都进行操作的缺陷。王建

军等人

[40]

通过稀疏训练统计不同尺度特征图中无效特征图的比例来调整网络

深度,进而改善网络模型的性能。DarkNet-53 作为骨干网络时不能满足实时性

要求。Li 等人

[41]

参考 ShuffleNet 和通道注意力机制中 SENet（squeeze-and-

excitation network）

[42]

的思想构造 BackBone,在保证速度的同时提升了准确度。

虽然 YOLO V3 借助残差网络的思想实现了三尺度预测,融合了多特征信息,

但其模型结构较复杂,损失了一定的检测速度,且其改进算法在提升小目标检测

精度的情况下,忽略了大、中目标的检测效果。2020 年 4 月,Bochkovskiy 等人

[43]

在 Redmon 等人的研究基础上提出 YOLO V4 模型。该模型借鉴跨阶段局部

网络（cross stage partial network,CSPNet）的思想,构造 CSPDarkNet53

[44]

作

为骨干网络,降低了模型中参数的运算量,丰富了梯度组合信息。但在 YOLO V4

模型中随着网络层数的不断加深,过多的卷积操作直接导致小目标特征信息的

减少甚至消失,尤其对遥感小目标更是如此。谢俊章等人

[45]

分析了遥感目标尺

寸较小且分布密集的特点,简化了 YOLO V4 的特征提取网络。同时为防止网络

退化和梯度消失,采用残差网络取代连续的卷积操作,将深层特征信息加深提取,

提升了密集小目标检测的准确率和召回率。

Jocher

[46]

提出 YOLO V5 模型,该模型分为 YOLO V5s、YOLO V5m、YOLO

V5l、YOLO V5x 四种。与 YOLO V4 模型不同的是,YOLO V5 提出两种结构的

剩余27页未读，继续阅读

评论收藏

内容反馈

版权申诉

深度学习中的单阶段小目标检测方法综述.docx

评论0

最新资源

深度学习中的单阶段小目标检测方法综述.docx

评论0

最新资源

相关推荐

人工智能论文：基于深度学习的目标检测技术综述.docx

深度学习目标检测方法综述.docx

红外弱小目标检测方法综述.docx

目标检测方法简要综述.docx

基于YOLOv3多伯努利视频多目标检测跟踪方法.docx

深度学习应用于遮挡目标检测算法综述.docx

基于深度学习的表面缺陷检测方法综述.docx

深度卷积应用于目标检测算法综述.docx

基于单片机的温湿度检测报警系统文献综述.docx

光学遥感图像目标检测算法综述.docx

深度学习的目标检测算法改进综述.docx

基于深度学习的智能安防实时开窗检测报警系统及方法研究.docx

基于深度学习的厨师帽和口罩佩戴的检测方法.docx

基于深度学习的入侵检测系统综述.docx

雷达大擦地角海杂波特性与目标检测研究综述.docx

深度学习目标检测综述.docx

基于Matlab和优化Hough变换的高速公路车道线检测方法①.docx

基于高斯建模和YoLo V3目标检测的遗留物检测方法.docx

全国计算机等级考试二级Python真题及解析.docx

1000份ppt模版，PPT模板优秀PPT

matlab批量读取excel表格数据并处理画图

导入证书可以解决”无法建立到信任根颁发机构的证书链"问题。

OpenCv车辆识别训练模型

代码随想录知识星球精华-大厂面试八股文第二版v1.2.pdf

Vue-Element UI集成ECharts实现数据统计分析页代码部分(如果帮助到你，感谢关注点赞)

数学建模对乙醇偶合制备C4烯烃的问题研究

STM32F103C8T6中文数据手册

（头歌）计算机组成原理存储系统设计（HUST）1-7关答案

MATLAB深度学习入门实例（果树病虫害识别VGG19版）