目标检测方法发展综述
1. 介绍
目标检测对于人类来说,是一项非常
简 单 的 任 务 , 目 标 检 测 ( Object
Detection)的任务是找出图像中所有感
兴趣的目标(物体),确定它们的类别和
位置,是计算机视觉领域的核心问题之一 。
由于各类物体有不同的外观、形状和姿态 ,
加上成像时光照、遮挡等因素的干扰,目
标检测一直是计算机视觉领域最具有挑战
性的问题。
计算机视觉中关于图像识别有四大类
任务:1)分类-Classi$cation: 解决“是什
么?”的问题,即给定一张图片或一段视频
判断里面包含什么类别的目标。 2)定位-
Location:解决“在哪里?”的问题,即定
位 出 这 个 目 标 的 位 置 。 3 ) 检 测 -
Detection:解决“在哪里?是什么?”的问
题,即定位出这个目标的位置并且知道目
标物是什么。4)分割-Segmentation:
分为实例的分割(Instance-level)和场
景分割(Scene-level),解决“每一个像
素属于哪个目标物或场景”的问题。
2. 主要贡献和方法
这 篇 综 述 全 面 回 顾 了 基 于 Deep
Learning 的目标检测器以及轻量分类网络。
现有的其他综述虽然也很全面,但是缺少
一些最新技术。本篇综述的主要贡献如下:
1)深入分类了两类目标检测器:单阶
段检测器和两阶段检测器,并从历史的角
度审视了这些方法的演变;
2)给出了关于标志性 backbone 架
构和轻量模型的详细评估,这是现有综述
所不具备的。
3. 数据集以及评价指标
3.1 数据集
数据集是对于目标检测一个重要的部分,
一个质量好的数据集可以有效提高目标检
测的精度。下面将会介绍 PASCAL VOC 数
据集、MSCOCO 数据集、Google Open
Image 数 据 集 、 ImageNet 数 据 集 、
ILSVRC 数据集、LFW 数据集、DOTA 数
据集。
3.1.1 PASCAL VOC 数据集
PASCAL VOC 挑战在 2005-2012 年
之间展开。该数据集包含 11530 张用来训
练和测试的图片,其中标定了 27450 个感
兴趣区域。该数据集在 8 年之间由原始的
4 个分类发展至最终的 20 个分类:1)人:
人;2)动物:鸟、猫、狗、牛、马、羊;3)运
载工具:飞机、自行车、船、巴士、汽车、
摩托车、火车;4)物品:瓶子、椅子、餐桌、
盆栽、沙发、电视机
在整个数据集中,所有的标注图片都
有 Detection 需要的 label, 但只有部分数
据 有 Segmentation Label 。 VOC2007
中 包 含 9963 张 标 注 过 的 图 片 ,
由 train/val/test 三部分组成,共标注出
24,640 个物体。VOC2007 的 test 数据
label 已经公布, 之后的没有公布(只有图
片 , 没 有 label ) 。 对 于 检 测 任 务
VOC2012 的 trainval/test 包含 08-11 年
的所有对应图片。trainval 有 11540 张图
片共 27450 个物体。
3.1.2 MSCOCO 数据集
COCO 数据集是微软团队发布的一个
可 以 用 来 图 像 Recognition +
segmentation + captioning 数据集,
该数据集收集了大量包含常见物体的日常
场景图片,并提供像素级的实例标注以更
精确地评估检测和分割算法的效果,致力
于推动场景理解的研究进展。依托这一数
据集,每年举办一次比赛,现已涵盖检测、
分割、关键点识别、注释等机器视觉的中
心任务,是继 ImageNet Challenge 以来
最有影响力的学术竞赛之一。
相比 ImageNet,COCO 更加偏好目
标 与 其 场 景 共 同 出 现 的 图 片 , 即 non-
iconic images。这样的图片能够反映视
觉上的语义,更符合图像理解的任务要求。
2
评论0
最新资源