没有合适的资源?快使用搜索试试~ 我知道了~
目标检测论文集1
需积分: 0 1 下载量 23 浏览量
2022-08-04
14:21:32
上传
评论
收藏 750KB PDF 举报
温馨提示
试读
15页
摘要计算机视觉研究中,目标检测是一个比分类更困难的领域,我们将回顾它的历史和最近的发展。在深度学习时代之前,像HOG 和特征金字塔这样的手工特性被广泛用于获取图
资源详情
资源评论
资源推荐
深度学习目标检测
2020 年 9 月 7 日
摘要
计算机视觉研究中,目标检测是一个比分类更困难的领域,我们将回顾它的历史和最近的发展。在深度学习时代之前,像
HOG 和特征金字塔这样的手工特性被广泛用于获取图像中的定位信号。然而,这些方法通常不能很好地扩展到通用的目标
检测,所以大多数的应用仅限于人脸识别或者行人检测。利用深度学习的力量,我们可以训练一个网络来学习要获取的特征,
并预测目标的坐标。这最终带来了基于视觉感知的应用的繁荣,比如商业人脸识别系统和无人机。在这篇文章里,我为那些
想要学习目标检测的新手挑选了 12 篇必读论文。尽管构建目标检测系统最具挑战性的部分隐藏在实现细节中,但是阅读这些
论文仍然可以让你对这些想法的来源以及未来目标检测将如何发展有一个很好的大致理解。作为阅读本文的前提条件,你需
要了解卷积神经网络的基本思想,以及常用的优化方法,如带反向传播的梯度下降法。还有图像分类的基础知识,因为目标
检测的许多很酷的想法都来源于更基础的图像分类研究。
https://towardsdatascience.com/ 12-papers-you-should-read-to-understand-object-detection-in-the-deep- learning-
era-3390d4a28891
1 2013:OverFeat
OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks
在 2012 年的 ImageNet 竞赛中,基于 CNN 特征提取的 AlexNet 击败了所有手工设计的特征提取器。受到 AlexNet 成
功的启发,OverFeat 迅速将 CNN 引入到目标检测领域。这个想法非常直接: 如果我们可以用 CNN 对一张图片进行
分类,那么用不同大小的窗口滑动浏览整张图片,然后尝试用 CNN 逐一对它们进行分类呢?该算法利用了 CNN 的特
征提取和分类能力,并通过预定义的滑动窗口绕过了硬 region proposal 问题。另外,由于邻近的卷积核可以共享部分
计算结果,因此不需要计算重叠区域的卷积,从而大大降低了成本。OverFeat 是单阶段目标检测器的先驱。它试图在
同一个 CNN 中结合特征提取、位置回归和区域分类。不幸的是,这种单阶段的方法由于使用较少的先验知识,精确度
也相对较差。因此,OverFeat 未能引领单阶段检测器研究的热潮,直到两年后出现了一个更优雅的解决方案。
在上图中,R-CNN 首先使用一种称为 selective search 的技术从输入图像中提取出感兴趣的潜在区域。selective search
并不真正尝试理解前景目标,相反,它依靠启发式方法对相似的像素进行分组: 相似的像素通常属于同一个目标。因此,
selective search 的结果很有可能包含一些有意义的内容。接下来,R-CNN 将这些 region proposals 变换成带有一些填
充的固定大小的图像,并将这些图像提供给网络的第二阶段,以便进行更细粒度的识别。与那些使用 selective search
的旧方法不同,R-CNN 在第二阶段将 HOG 替换为 CNN,从所有 region proposals 中提取特征。这种方法需要注意的
是,许多 region proposals 实际上并不是一个完整的目标,因此 R-CNN 不仅需要学习如何对包含的类别进行分类,还
需要学习如何拒绝负类。为了解决这个问题,R-CNN 将所有与一个 ground truth 框重叠度 �0.5 IoU 的 region proposal
视为正,其余视为负。selective search 的 region proposal 高度依赖于相似性假设,因此只能提供大致的位置估计。为
了进一步提高定位精度,R-CNN 借鉴了“Deep Neural Networks for Object Detection”(又名 DetectorNet) 的思想,
引入了额外的边界框回归来预测框的中心坐标、宽度和高度。这种回归器被广泛应用于未来的目标检测器中。然而,像
R-CNN 这样的两阶段检测器存在两个大问题: 1) selective search 并不是卷积,因为它不是端到端可训练的。2) region
proposal 阶段与 OverFeat 等其他单阶段检测器相比通常非常慢,而且在每个 region proposal 上分别运行会使其更慢。
稍后,我们将看到 R-CNN 如何随着时间的推移逐步演变以解决这两个问题的。
1
2 R-CNN 基于区域卷积网络的精确目标检测和分割
R-CNN 也是在 2013 年提出的,比 OverFeat 晚了点。然而,这种基于区域的方法最终以其两阶段的框架,即 region
proposal 阶段和区域分类与精细化阶段,引发了目标检测研究的大浪潮。
图 1: 源自论文“Region-based Convolutional Networks for Accurate Object Detection and Segmentation”
在上图中,R-CNN 首先使用一种称为 selective search 的技术从输入图像中提取出感兴趣的潜在区域。selective search
并不真正尝试理解前景目标,相反,它依靠启发式方法对相似的像素进行分组: 相似的像素通常属于同一个目标。因此,
selective search 的结果很有可能包含一些有意义的内容。接下来,R-CNN 将这些 region proposals 变换成带有一些填
充的固定大小的图像,并将这些图像提供给网络的第二阶段,以便进行更细粒度的识别。与那些使用 selective search
的旧方法不同,R-CNN 在第二阶段将 HOG 替换为 CNN,从所有 region proposals 中提取特征。这种方法需要注意的
是,许多 region proposals 实际上并不是一个完整的目标,因此 R-CNN 不仅需要学习如何对包含的类别进行分类,还
需要学习如何拒绝负类。为了解决这个问题,R-CNN 将所有与一个 ground truth 框重叠度 �0.5 IoU 的 region proposal
视为正,其余视为负。selective search 的 region proposal 高度依赖于相似性假设,因此只能提供大致的位置估计。为
了进一步提高定位精度,R-CNN 借鉴了“Deep Neural Networks for Object Detection”(又名 DetectorNet) 的思想,
引入了额外的边界框回归来预测框的中心坐标、宽度和高度。这种回归器被广泛应用于未来的目标检测器中。然而,像
R-CNN 这样的两阶段检测器存在两个大问题: 1) selective search 并不是卷积,因为它不是端到端可训练的。2) region
proposal 阶段与 OverFeat 等其他单阶段检测器相比通常非常慢,而且在每个 region proposal 上分别运行会使其更慢。
稍后,我们将看到 R-CNN 如何随着时间的推移逐步演变以解决这两个问题的。
3 2015: Fast R-CNN
R-CNN 的一个快速后续是减少对多个 region proposals 的重复卷积。由于这些 region proposals 都来自一个图像,自
然而然地想到,可以通过对整个图像运行一次 CNN,并在许多 region proposals 之间共享计算,来改进 R-CNN。然
而,不同的 region proposals 有不同的大小,如果我们使用相同的 CNN 特征提取器,会导致不同的输出特征图大小。
这些具有不同大小的特征图将阻止我们使用全连接层进行进一步的分类和回归,因为全连接层的输入只能是固定大小。
幸运的是,论文“Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition”解决了全连接层
的动态缩放问题。在 SPPNet 中,在卷积层和 FC 层之间引入了特征金字塔池化,以创建 bag-of-words 式的特征向量。
这个向量有固定的大小和不同尺度的特征特征,所以我们的卷积层现在可以接受任意尺寸的图像作为输入,而不用担
心 FC 层的不兼容性。受此启发,Fast R-CNN 提出了一个类似的层称为 ROI Pooling 层。这个池化层将不同大小的
特征图 downsample 为一个固定大小的向量。这样我们就可以使用相同的 FC 层进行分类和框回归,不管 ROI 是大还
是小。
Fast R-CNN 由于采用了共享特征提取器和尺度不变(scale-invariant)的 ROI 池化层,达到类似的定位精度,训练快
了 10 20 倍,且推理快了 100 200 倍。接近实时推理和一个更易用的端到端检测部分训练协议使 Fast R-CNN 成为
业界的热门选择。
2
图
2:
源自论文“
Fast R-CNN
”
4 2015: Faster R-CNN 通过 Region Proposal Networks 实现实时目标检测
正如我们上面介绍的,在 2015 年初,Ross Girshick 提出了一个改进版本的 R-CNN,称为 Fast R-CNN,对建议的区
域使用共享的特征提取器。仅仅几个月后,Ross 和他的团队又带着另一个改进回来了。这个新的网络 Faster R-CNN
不仅比以前的版本更快,而且标志着目标检测深度学习方法的一个里程碑。
图 3: 源自论文“Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”
有了 Fast R-CNN,网络中唯一的非卷积部分就是 selective search 的 region proposal 了。2015 年,研究人员开始意识
到深层神经网络是如此神奇,只要有足够的数据,它就可以学习任何东西。那么,是否有可能训练一个 region proposal
的神经网络,而不是依赖于 selective search 等启发式和手工的方法?Faster R-CNN 遵循这个方向和思路,并成功地
创建了 Region Proposal Network(RPN)。简单地说,RPN 是一个 CNN,以图像作为输入,并输出一组矩形目标建议,
3
剩余14页未读,继续阅读
实在想不出来了
- 粉丝: 24
- 资源: 318
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0