干货：基于深度学习的目标检测算法综述_传统目标检测算法资源-CSDN文库

3星 · 超过75%的资源需积分: 49 72 浏览量 2018-08-24 19:15:46 上传评论 2 收藏 2.23MB PDF 举报

资源推荐

资源详情

资源评论

2018/8/24 干货 | 基于深度学习的目标检测算法综述（一）

http://www.sohu.com/a/247149436_651893 1/29

干货 | 基于深度学习的目标检测算法综述（一）

目标检测（Object Detection）是计算机视觉领域的基本任务之一，学术界已有将近二十年的研究历史。近些

年随着深度学习技术的火热发展，目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测

技术。从最初 2013 年提出的 R-CNN、OverFeat，到后面的 Fast/Faster R-CNN、SSD、YOLO 系列，再到

2018 年最近的 Pelee。短短不到五年时间，基于深度学习的目标检测技术，在网络结构上，从 two stage 到

one stage，从 bottom-up only 到 Top-Down，从 single scale network 到 feature pyramid network，从

面向 PC 端到面向手机端，都涌现出许多好的算法技术，这些算法在开放目标检测数据集上的检测效果和性能都

很出色。

本篇综述的出发点一方面是希望给检测方向的入门研究人员提供一个技术概览，帮助大家快速了解目标检测技

术上下文；另一方面是给工业界应用人员提供一些参考，通过本篇综述，读者可以根据实际业务场景，找到合

适的目标检测方法，在此基础上改进、优化甚至是进一步创新，解决实际业务问题。本文对其中的27篇论文进

行介绍，这27篇论文涵盖了 2013 以来，除 SSD、YOLO 和 R-CNN 系列之外的，所有引用率相对较高或是笔

者认为具有实际应用价值的论文。R-CNN 系列、SSD 和 YOLO 相关的论文详解资源已经非常多，所以本文不

再赘述。下图对这些方法进行了分类概括。

图 1

下文中，我们针对每篇文章，从论文目标，即要解决的问题，算法核心思想以及算法效果三个层面进行概括。

同时，我们也给出了每篇论文的出处，录用信息以及相关的开源代码链接，其中代码链接以作者实现和 mxnet

实现为主。

背景

2018/8/24 干货 | 基于深度学习的目标检测算法综述（一）

http://www.sohu.com/a/247149436_651893 4/29

外需要注明的是，虽然 Mask R-CNN 主要应用在分割上，但该论文和 Faster R-CNN 一脉相承，而且论文提出

了 RoI Align 的思想，对物体检测回归框的精度提升有一定效果，故本篇综述也介绍了这篇论文。

R-FCN: Object Detection via Region-based Fully Convolutional Networks

论文链接：arxiv.org/abs/1605.06409

开源代码：github.com/daijifeng001/R-FCN

录用信息：CVPR2017

论文目标

对预测特征图引入位置敏感分数图提增强征位置信息，提高检测精度。

核心思想

背景

Faster R-CNN 是首个利用 CNN 来完成 proposals 的预测的，之后的很多目标检测网络都是借助了 Faster R-

CNN 的思想。而 Faster R-CNN 系列的网络都可以分成 2 个部分：

1.Fully Convolutional subnetwork before RoI Layer

2.RoI-wise subnetwork

第 1 部分就是直接用普通分类网络的卷积层来提取共享特征，后接一个 RoI Pooling Layer 在第 1 部分的最后

一张特征图上进行提取针对各个 RoIs 的特征图，最后将所有 RoIs 的特征图都交由第 2 部分来处理（分类和回

归）。第二部分通常由全连接层组层，最后接 2 个并行的 loss 函数：Softmax 和 smoothL1，分别用来对每一

个 RoI 进行分类和回归。由此得到每个 RoI 的类别和归回结果。其中第 1 部分的基础分类网络计算是所有 RoIs

共享的，只需要进行一次前向计算即可得到所有 RoIs 所对应的特征图。

第 2 部分的 RoI-wise subnetwork 不是所有 RoIs 共享的，这一部分的作用就是给每个 RoI 进行分类和回归。

在模型进行预测时基础网络不能有效感知位置信息，因为常见的 CNN 结构是根据分类任务进行设计的，并没有

针对性的保留图片中物体的位置信息。而第 2 部分的全连阶层更是一种对于位置信息非常不友好的网络结构。

由于检测任务中物体的位置信息是一个很重要的特征，R-FCN 通过提出的位置敏感分数图（position sensitive

score maps）来增强网络对于位置信息的表达能力，提高检测效果。

网络设计

position-sensitive score map

剩余28页未读，继续阅读

内容反馈

fq2168

2022-06-13

是整理的pdf文件，可以用

nihate

粉丝: 1108
资源: 25

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip