深度学习目标检测综述.docx_基于深度学习的目标检测资源-CSDN文库

需积分: 50 129 浏览量 2021-06-18 16:35:50 上传评论 3 收藏 1.46MB DOCX 举报

资源详情

资源评论

目标检测方法发展综述

摘要:目标检测是这样一种任务：在图像或者视频中，找到目标位置并进行分类。近年来，由于其广泛应

用而引起了重视。这篇文章综述了近年来基于深度学习的目标检测的最新进展，包括传统目标检测，一阶

段目标检测以及两阶段目标检测的分析，还分析了在识别任务中使用的一些突出的骨干网络和目标检测中

常用的数据集。比较好的目标检测网络对于具有实时性的目标检测研究更为必要。

关键词: 目标检测，发展综述，神经网络，数据集，轻量级网络

Review of development of target detection methods

Abstract: Target detection is a kind of task: in the image or video, find the target position and classification.

In recent years, it has attracted much attention because of its wide application. This paper reviews the latest

progress of target detection based on deep learning in recent years, including the analysis of traditional target

detection, one-stage target detection and two-stage target detection, and also analyzes some outstanding backbone

networks used in recognition tasks. At the same time, some contemporary lightweight classification networks for

edge devices are also provided. These lightweight networks are more necessary for real - time target detection

research.

Key words: target detection, development review, neural network, data set, lightweight

network

目标检测方法发展综述

1. 介绍

目标检测对于人类来说，是一项非常

简单的任务，目标检测（ Object

Detection）的任务是找出图像中所有感

兴趣的目标（物体），确定它们的类别和

位置，是计算机视觉领域的核心问题之一。

由于各类物体有不同的外观、形状和姿态，

加上成像时光照、遮挡等因素的干扰，目

标检测一直是计算机视觉领域最具有挑战

性的问题。

计算机视觉中关于图像识别有四大类

任务：1）分类-Classi$cation: 解决“是什

么？”的问题，即给定一张图片或一段视频

判断里面包含什么类别的目标。 2）定位-

Location：解决“在哪里？”的问题，即定

位出这个目标的位置。 3 ）检测 -

Detection：解决“在哪里？是什么？”的问

题，即定位出这个目标的位置并且知道目

标物是什么。4）分割-Segmentation：

分为实例的分割（Instance-level）和场

景分割（Scene-level），解决“每一个像

素属于哪个目标物或场景”的问题。

2. 主要贡献和方法

这篇综述全面回顾了基于 Deep

Learning 的目标检测器以及轻量分类网络。

现有的其他综述虽然也很全面，但是缺少

一些最新技术。本篇综述的主要贡献如下：

1）深入分类了两类目标检测器：单阶

段检测器和两阶段检测器，并从历史的角

度审视了这些方法的演变；

2）给出了关于标志性 backbone 架

构和轻量模型的详细评估，这是现有综述

所不具备的。

3. 数据集以及评价指标

3.1 数据集

数据集是对于目标检测一个重要的部分，

一个质量好的数据集可以有效提高目标检

测的精度。下面将会介绍 PASCAL VOC 数

据集、MSCOCO 数据集、Google Open

Image 数据集、 ImageNet 数据集、

ILSVRC 数据集、LFW 数据集、DOTA 数

据集。

3.1.1 PASCAL VOC 数据集

PASCAL VOC 挑战在 2005-2012 年

之间展开。该数据集包含 11530 张用来训

练和测试的图片，其中标定了 27450 个感

兴趣区域。该数据集在 8 年之间由原始的

4 个分类发展至最终的 20 个分类：1)人：

人;2)动物：鸟、猫、狗、牛、马、羊;3)运

载工具：飞机、自行车、船、巴士、汽车、

摩托车、火车;4)物品：瓶子、椅子、餐桌、

盆栽、沙发、电视机

在整个数据集中，所有的标注图片都

有 Detection 需要的 label, 但只有部分数

据有 Segmentation Label 。 VOC2007

中包含 9963 张标注过的图片 ,

由 train/val/test 三部分组成，共标注出

24,640 个物体。VOC2007 的 test 数据

label 已经公布, 之后的没有公布（只有图

片，没有 label ）。对于检测任务

VOC2012 的 trainval/test 包含 08-11 年

的所有对应图片。trainval 有 11540 张图

片共 27450 个物体。

3.1.2 MSCOCO 数据集

COCO 数据集是微软团队发布的一个

可以用来图像 Recognition +

segmentation + captioning 数据集，

该数据集收集了大量包含常见物体的日常

场景图片，并提供像素级的实例标注以更

精确地评估检测和分割算法的效果，致力

于推动场景理解的研究进展。依托这一数

据集，每年举办一次比赛，现已涵盖检测、

分割、关键点识别、注释等机器视觉的中

心任务，是继 ImageNet Challenge 以来

最有影响力的学术竞赛之一。

相比 ImageNet，COCO 更加偏好目

标与其场景共同出现的图片，即 non-

iconic images。这样的图片能够反映视

觉上的语义，更符合图像理解的任务要求。

目标检测方法发展综述

而相对的 iconic images 则更适合浅语义

的图像分类等任务。

COCO 的检测任务共含有 80 个类，在

2014 年发布的数据规模分 train/val/test

分别为 80k/40k/40k，学术界较为通用的

划分是使用 train 和 35k 的 val 子集作为

训练集（trainval35k），使用剩余的 val

作为测试集（minival），同时向官方的

evaluation server 提交结果（ test-

dev）。除此之外，COCO 官方也保留一

部分 test 数据作为比赛的评测集。

3.1.3 Google Open Image 数据集

Open Image 是谷歌团队发布的数据

集。最新发布的 Open Images V4 包含

190 万图像、 600 个种类， 1540 万个

bounding-box 标注，是当前最大的带物

体位置标注信息的数据集。这些边界框大

部分都是由专业注释人员手动绘制的，确

保了它们的准确性和一致性。另外，这些

图像是非常多样化的，并且通常包含有多

个对象的复杂场景（平均每个图像 8 个）。

3.1.4 ImageNet 数据集

ImageNet 是一个计算机视觉系统识

别项目，是目前世界上图像识别最大的数

据库。ImageNet 是美国斯坦福的计算机

科学家，模拟人类的识别系统建立的。能

够从图片识别物体。Imagenet 数据集文

档详细，有专门的团队维护，使用非常方

便，在计算机视觉领域研究论文中应用非

常广，几乎成为了目前深度学习图像领域

算法性能检验的“标准”数据集。Imagenet

数据集有 1400 多万幅图片，涵盖 2 万多

个类别；其中有超过百万的图片有明确的

类别标注和图像中物体位置的标注。

ILSVRC 数据集

3.1.5 ILSVRC 数据集

ImageNet Large Scale Visual

Recognition Challenge (ILSVRC) ，是

2010~2017 期间的年度挑战赛，如今其

已经成为了评估模型性能的基准集。数据

集的规模扩展到了包含了 1000 个类别、

超过 100 万个图像，其中精选了 200 个类

别、超 500K 个图像被用于目标检测。该

目标检测数据集包含了来自

ImageNet 、 Flikr 在内的多种数据源。

ILSVRC 还放宽了 IoU 的限制，以将小目标

检测纳入其中。LFW 数据集、DOTA 数据

集。

3.1.6 LFW 数据集

LFW 数据集是为了研究非限制环境下

的人脸识别问题而建立的。这个数据集包

含超过 13，000 张人脸图像，均采集于

Internet。每个人脸均被标准了一个人名。

其中，大约 1680 个人包含两个以上的人

脸。

3.1.7 DOTA 数据集

DOTA 是遥感航空图像检测的常用数

据集，包含 2806 张航空图像，尺寸大约

为 4kx4k，包含 15 个类别共计 188282

个实例，其中 14 个主类，small vehicle

和 large vehicle 都是 vehicle 的子类。

其标注方式为四点确定的任意形状和方向

的四边形。航空图像区别于传统数据集，

有其自己的特点，如：尺度变化性更大；

密集的小物体检测；检测目标的不确定性。

数据划分为 1/6 验证集，1/3 测试集，1/2

训练集。目前发布了训练集和验证集，图

像尺寸从 800x800 到 4000x4000 不等。

3.2 指标

目标检测器使用多种指标来评价检测

器的性能，如：

FPS、precision、recall，以及最常用的

mAP。precision 由 IoU 推导出来，后者

的定义是预测边框和 GT 之间的交并比。然

后，设定一个 IoU 阈值来判定检测结果是

否正确：如果 IoU 大于阈值，则该结果分

剩余11页未读，继续阅读

评论收藏

内容反馈

深度学习目标检测综述.docx

评论0

最新资源

深度学习目标检测综述.docx

评论0

最新资源

相关推荐

人工智能论文：基于深度学习的目标检测技术综述.docx

深度学习目标检测方法综述.docx

基于深度学习的目标检测算法综述.docx

深度学习的目标检测算法综述-.docx

基于深度学习的目标检测技术的研究综述.docx

基于候选区域的深度学习目标检测算法综述.pdf

深度学习应用于遮挡目标检测算法综述.docx

深度学习的目标检测算法改进综述.docx

深度学习中的单阶段小目标检测方法综述.docx

自然辩证法.docx

解决win7win8win10装4.8-3.5的.Net framework3.5安装失败问题 附带安装文档

谷歌浏览器axure扩展程序

时序图画图工具-TimeGen3.2安装包

大唐杯习题合集-历年真题模拟题

百度、高德、腾讯、天地图、谷歌、必应、MapBox等地图金字塔切图工具 MapCutter 3.11.2

zotero-pdf-translate-1.0.24（2023年7月10日）

姓名变为拼音.bas

CiteSpace5.6.R2，目前最稳定的版本，改时间就可以用

typora1.8.10相关资源补丁

小米盒子3，MDZ-16-AA，系统镜像文件1.4.16d.full.img

模拟电子技术基础 带目录，高清 第五版 童诗白、华成英

MC大龙老师新版scratch3.0编程素材（第4版）

arcgis 10.8安装包

百度、高德、腾讯、天地图、谷歌、必应、MapBox等地图金字塔切图工具 MapCutter 3.10.1

内网通3.4.3045最新版本 免广告码 积分码 算法工具.zip

身份证籍贯对照表.xls

雨课堂领导力素养期末考试参考资料

Axure谷歌浏览器插件axure-chrome-extension下载

Alist安装包+快速启动-停止脚本

解决win7win8win10装4.8-3.5的.Net framework3.5安装失败问题附带安装文档

模拟电子技术基础带目录，高清第五版童诗白、华成英

内网通3.4.3045最新版本免广告码积分码算法工具.zip