没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
人工智能论文:基于深度学习的目标检测技术综述.pdf人工智能论文:基于深度学习的目标检测技术综述.pdf人工智能论文:基于深度学习的目标检测技术综述.pdf人工智能论文:基于深度学习的目标检测技术综述.pdf人工智能论文:基于深度学习的目标检测技术综述.pdf人工智能论文:基于深度学习的目标检测技术综述.pdf人工智能论文:基于深度学习的目标检测技术综述.pdf人工智能论文:基于深度学习的目标检测技术综述.pdf
资源推荐
资源详情
资源评论










人工智能论文:基于深度学习的目标检测技术综述
1. 引言
目标检测的任务是判断图像中是否存在属于指定类别的目标,如
果存在,则给出目标的类别和位置信息。近年来,由于卷积神经网络
的发展,基于深度学习的目标检测取得了突破性的进展,并在图像分
类、人脸识别、自动驾驶、医疗诊断等领域有广阔的应用前景。例如
Wang 等人[1]针对监控视频中行人由于聚集而相互遮挡的问题,提出
了一种改进的边界框回归的损失的目标检测方法,取得了明显的效果。
Li 等人[2]针对医学图像中存在数据分布差异且域适应能力较差的问
题,提出一种 CLU-CNNs 的域适应框架,该框架在小数据集上有良好的
扩展性和准确的定位能力。Li 等人[3]针对人脸中多变的尺度、姿态、
遮挡、表情、光照等问题导致检测率较低的问题,提出一种双分支人
脸检测器。基于深度学习的目标检测算法由于其网络结构简单、检测
速度快、精度高等特点,已经取代传统的基于滑动窗口模型的检测算
法,成为了当今主流的目标检测算法。
基于深度学习的目标检测算法可分为两类,基于候选区域的 two-
stage 目标检测算法和基于回归的 one-stage 目标检测算法。Two-
stage 算法主要有四个任务:特征提取、候选区域获得、分类和回归;
而 one-stage 算法不需要获取候选区域,只有特征提取、分类和回归
三个任务。候选区域的获取利弊兼有,通过获取候选区域可以删掉部
分背景框,训练分类器时不会因为‘类别极不均衡’影响训练器的精
度。同时,获取候选区域需消耗较多时间,因此two-stage 算法很难

实现实时性检测。
本文将对基于深度学习的主流目标检测算法进行总结和比较。第
二节对卷积神经网络的发展做简要概述;第三节对主流卷积神经网络
进行分析和比较,总结算法性能以及优缺点;第四、五节分别对基于
候选区域和基于回归的目标检测算法深入分析,包括网络结构以及创
新和改进。第六节对目标检测算法的未来研究方向进行了思考和展望
论文发表。
2. 神经网络的发展
深度学习模型可以看作是为具有深度结构的神经网络。神经网络
的历史可以追溯到 1940 年代[4],最初的目的是模拟人的大脑系统,
以有原则的方式解决一般的学习问题。随着 Hinton 等人[5]提出的反
向传播算法,神经网络算法逐渐变得流行起来。但是,由于缺乏大规
模的训练数据、过度拟合、有限的计算能力以及与其他机器学习工具
相比性能的不足等缺点,到 2000 年,各学者对神经网络算法的研究
趋于冷淡。自 2006 年以来,由于语音识别技术的突破,重新燃起了
人们对于深度学习研究的热情[6, 7]。对深度学习的重新重视可以归
因于以下几点:
1.大规模的带注释的训练数据的出现,以充分展现其非常大的学
习能力。
2.快速开发高性能并行计算系统,例如 GPU 集群。
3.网络结构和培训策略设计方面的重大进步。在自动编码器的指
导下进行无监督的预训练,可以提供良好的初始化。随着 dropout 技

术和数据扩充,训练中的过度拟合问题得到缓解。使用批量归一化后,
深层次的神经网络的训练变得简单有效。同时,为了提高神经网络的
泛化性能,提出各种不同结构的神经网络。例如 AlexNet[8]、
GoogLeNet[9]、VGG[10]和 ResNet[11]等。
卷积神经网络 CNN 是深度学习的最具代表性的模型[12]。CNN 的
每一层称为特征图。输入层的特征图是不同颜色通道(例如 RGB)像
素强度的 3D 矩阵。任何内部层的特征图都是感应的多通道图像,其
“像素”可以视为特定特征。每个神经元都与前一层的一部分相邻神
经元相连。可以在特征图上执行不同类型的转换[13, 14],例如滤波
和池化,滤波运算将滤波器矩阵(学习的权重)与神经元感受野的值
进行卷积,并采用非线性函数(例如 Sigmoid,ReLU)以获得最终响
应。池化操作,诸如最大池化、平均池化和 L2 池化操作[15]是将接
收域的响应汇总为一个值,以生成更可靠的特征描述。通过卷积和池
化之间的交织,能够构造初始要素的层次性结构,最后添加几个全连
接层以适应不同的视觉任务。根据涉及的任务,添加不同的激活函数,
以获得每个输出神经元的响应。通过随机梯度下降方法在目标函数
(例如均方误差或交叉熵损失)上优化整个网络。典型的 VGG16 总共
有 13 个卷积层,3 个全连接的层,3 个最大池化层和一个 Softmax 分
类层。
与传统方法相比,CNN 的优势可总结如下。
(1)通过分层多级结构[16, 17]可以学习到从像素到高级语义
特征的多级表示,从而获得输入数据的隐藏信息。

(2)与传统的浅层模型相比,更深的网络结构成倍的增加了表
达能力。
(3)CNN 的架构为共同优化几个相关任务提供了可能(例如,
Fast RCNN 将分类和边界框回归结合为一种多任务学习方式)。
图 1 目标检测算法发展史
图 1 为目标检测算法的发展史,时间轴下方展示了基于深度学习
的分类网络的发展历程。其中红色框内为 one-stage 算法。可以看出
图像分类算法贯穿目标检测算法的始终,而 two-stage 算法在前期占
据主导地位,one-stage 目标检测算法在后期蓬勃发展。这是因为图
像分类算法和 two-stage 目标检测算法中回归分析方法对于 one-
stage 目标检测算法的发展都有重要的促进作用。
不同目标检测算法在 COCO 数据集上的性能如表 1 所示。从中可
以看出,RetinaNet 由于解决了 one-stage 算法‘类别不均衡’问题,
精度已经超过了 two-stage 检测器。然而检测速度只有 5FPS,远小
于 SSD 和 YOLOv3。
表 1 不同目标检测算法性能对比
Two-stage
methods
Fast
CNN[18]
R-
VGG-16 19.735.9
back bone AP AP50AP75APS APM APL

Faster R-ResNet-
34.955.737.415.638.750.9
101-C4
36.259.139.018.239.048.2
CNN+++[11]
Faster R-CNNResNet-
w FPN[19] 101-FPN
34.755.536.713.538.152.0
by G-RMI[20] ResNet-v2
Inception-
Faster R-CNN
ResNet-v2-36.857.739.216.239.852.1
w TDM[21]
TDM
Mask
CNN[22]
Mask
CNN[22]
One-stage
methods
YOLOv2[23]
SSD513[24]
101-SSD
ResNet-
DSSD513[25]
101-DSSD
YOLOv3[26] Darknet-5333.057.934.418.335.441.9
33.253.335.213.035.451.1
DarkNet-1921.644.019.25.0 22.4 35.5
ResNet-
31.250.433.310.234.549.8
R-ResNet-
38.260.341.720.141.150.2
101-FPN
R-ResNeXt-
39.862.343.422.143.251.2
101-FPN
Faster R-CNNInception-
剩余24页未读,继续阅读

春哥111
- 粉丝: 1w+
- 资源: 5万+
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


会员权益专享
安全验证
文档复制为VIP权益,开通VIP直接复制

- 1
- 2
前往页