没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
29页
目标检测(Object Detection)是计算机视觉领域的基本任务之一,学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展,目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。从最初 2013 年提出的 R-CNN、OverFeat,到后面的 Fast/Faster R-CNN、SSD、YOLO 系列,再到 2018 年最近的 Pelee。短短不到五年时间,基于深度学习的目标检测技术,在网络结构上,从 two stage 到 one stage,从 bottom-up only 到 Top-Down,从 single scale network 到 feature pyramid network,从面向 PC 端到面向手机端,都涌现出许多好的算法技术,这些算法在开放目标检测数据集上的检测效果和性能都很出色
资源推荐
资源详情
资源评论
2018/8/24 干货 | 基于深度学习的目标检测算法综述(一)
http://www.sohu.com/a/247149436_651893 1/29
干货 | 基于深度学习的目标检测算法综述(一)
目标检测(Object Detection)是计算机视觉领域的基本任务之一,学术界已有将近二十年的研究历史。近些
年随着深度学习技术的火热发展,目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测
技术。从最初 2013 年提出的 R-CNN、OverFeat,到后面的 Fast/Faster R-CNN、SSD、YOLO 系列,再到
2018 年最近的 Pelee。短短不到五年时间,基于深度学习的目标检测技术,在网络结构上,从 two stage 到
one stage,从 bottom-up only 到 Top-Down,从 single scale network 到 feature pyramid network,从
面向 PC 端到面向手机端,都涌现出许多好的算法技术,这些算法在开放目标检测数据集上的检测效果和性能都
很出色。
本篇综述的出发点一方面是希望给检测方向的入门研究人员提供一个技术概览,帮助大家快速了解目标检测技
术上下文;另一方面是给工业界应用人员提供一些参考,通过本篇综述,读者可以根据实际业务场景,找到合
适的目标检测方法,在此基础上改进、优化甚至是进一步创新,解决实际业务问题。本文对其中的27篇论文进
行介绍,这27篇论文涵盖了 2013 以来,除 SSD、YOLO 和 R-CNN 系列之外的,所有引用率相对较高或是笔
者认为具有实际应用价值的论文。R-CNN 系列、SSD 和 YOLO 相关的论文详解资源已经非常多,所以本文不
再赘述。下图对这些方法进行了分类概括。
图 1
下文中,我们针对每篇文章,从论文目标,即要解决的问题,算法核心思想以及算法效果三个层面进行概括。
同时,我们也给出了每篇论文的出处,录用信息以及相关的开源代码链接,其中代码链接以作者实现和 mxnet
实现为主。
背景
2018/8/24 干货 | 基于深度学习的目标检测算法综述(一)
http://www.sohu.com/a/247149436_651893 2/29
图 2
物体检测的任务是找出图像或视频中的感兴趣物体,同时检测出它们的位置和大小,是机器视觉领域的核心问
题之一。
物体检测过程中有很多不确定因素,如图像中物体数量不确定,物体有不同的外观、形状、姿态,加之物体成
像时会有光照、遮挡等因素的干扰,导致检测算法有一定的难度。进入深度学习时代以来,物体检测发展主要
集中在两个方向:two stage 算法如 R-CNN 系列和 one stage 算法如 YOLO、SSD 等。两者的主要区别在于
two stage 算法需要先生成 proposal(一个有可能包含待检物体的预选框),然后进行细粒度的物体检测。而
one stage 算法会直接在网络中提取特征来预测物体分类和位置。
2018/8/24 干货 | 基于深度学习的目标检测算法综述(一)
http://www.sohu.com/a/247149436_651893 3/29
图 3
基于深度学习的目标检测算法综述分为三部分:
1. Two/One stage 算法改进。这部分将主要总结在 two/one stage 经典网络上改进的系列论文,包括 Faster
R-CNN、YOLO、SSD 等经典论文的升级版本。
2. 解决方案。这部分我们归纳总结了目标检测的常见问题和近期论文提出的解决方案。
3. 扩展应用、综述。这部分我们会介绍检测算法的扩展和其他综述类论文。
本综述分三部分,本文介绍第一部分。
创新内容、改进方向
Two/One stage 算法改进
Two stage
Faster R-CNN 网络包括两个步骤:1. 使用RPN(region proposal network)提取 proposal 信息;2. 使用 R-
CNN 对候选框位置进行预测和物体类别识别。本文主要介绍在 Faster R-CNN 基础上改进的几篇论文:R-
FCN、R-FCN3000 和 Mask R-CNN。R-FCN 系列提出了 Position Sensitive(ps)的概念,提升了检测效果。另
2018/8/24 干货 | 基于深度学习的目标检测算法综述(一)
http://www.sohu.com/a/247149436_651893 4/29
外需要注明的是,虽然 Mask R-CNN 主要应用在分割上,但该论文和 Faster R-CNN 一脉相承,而且论文提出
了 RoI Align 的思想,对物体检测回归框的精度提升有一定效果,故本篇综述也介绍了这篇论文。
R-FCN: Object Detection via Region-based Fully Convolutional Networks
论文链接:arxiv.org/abs/1605.06409
开源代码:github.com/daijifeng001/R-FCN
录用信息:CVPR2017
论文目标
对预测特征图引入位置敏感分数图提增强征位置信息,提高检测精度。
核心思想
背景
Faster R-CNN 是首个利用 CNN 来完成 proposals 的预测的,之后的很多目标检测网络都是借助了 Faster R-
CNN 的思想。而 Faster R-CNN 系列的网络都可以分成 2 个部分:
1.Fully Convolutional subnetwork before RoI Layer
2.RoI-wise subnetwork
第 1 部分就是直接用普通分类网络的卷积层来提取共享特征,后接一个 RoI Pooling Layer 在第 1 部分的最后
一张特征图上进行提取针对各个 RoIs 的特征图,最后将所有 RoIs 的特征图都交由第 2 部分来处理(分类和回
归)。第二部分通常由全连接层组层,最后接 2 个并行的 loss 函数:Softmax 和 smoothL1,分别用来对每一
个 RoI 进行分类和回归。由此得到每个 RoI 的类别和归回结果。其中第 1 部分的基础分类网络计算是所有 RoIs
共享的,只需要进行一次前向计算即可得到所有 RoIs 所对应的特征图。
第 2 部分的 RoI-wise subnetwork 不是所有 RoIs 共享的,这一部分的作用就是给每个 RoI 进行分类和回归。
在模型进行预测时基础网络不能有效感知位置信息,因为常见的 CNN 结构是根据分类任务进行设计的,并没有
针对性的保留图片中物体的位置信息。而第 2 部分的全连阶层更是一种对于位置信息非常不友好的网络结构。
由于检测任务中物体的位置信息是一个很重要的特征,R-FCN 通过提出的位置敏感分数图(position sensitive
score maps)来增强网络对于位置信息的表达能力,提高检测效果。
网络设计
position-sensitive score map
2018/8/24 干货 | 基于深度学习的目标检测算法综述(一)
http://www.sohu.com/a/247149436_651893 5/29
图 4
图 4 展示的是 R-FCN 的网络结构图,展示了位置敏感得分图(position-sensitive score map)的主要设计思
想。如果一个 RoI 含有一个类别 c 的物体,则将该 RoI 划分为 k x k 个区域,分别表示该物体的各个相应部
位。其每个相应的部位都由特定的特征图对其进行特征提取。R-FCN在 、共享卷积层的最后再接上一层卷积
层,而该卷积层就是位置敏感得分图 position-sensitive score map。其通道数 channels=k x k x (C+1)。C
表示物体类别种数再加上 1 个背景类别,每个类别都有 k x k 个 score maps 分别对应每个类别的不同位置。每
个通道分别负责某一类的特定位置的特征提取工作。
Position-sensitive RoI pooling
位置敏感RoI池化操作了(Position-sensitive RoI pooling)如下图所示:
图 5
该操作将每个 RoIs 分为 k x k 个小块。之后提取其不同位置的小块相应特征图上的特征执行池化操作,下图展
示了池化操作的计算方式。
剩余28页未读,继续阅读
资源评论
- fq21682022-06-13是整理的pdf文件,可以用
nihate
- 粉丝: 1108
- 资源: 25
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于JavaScript和CSS的随寻订购网页设计源码 - web-order
- 基于MATLAB的声纹识别系统设计源码 - VoiceprintRecognition
- 基于Java的微服务插件集合设计源码 - wsy-plugins
- 基于Vue和微信小程序的监理日志系统设计源码 - supervisionLog
- 基于Java和LCN分布式事务框架的设计源码 - tx-lcn
- 基于Java和JavaScript的茶叶评级管理系统设计源码 - tea
- IMG_5680.JPG
- IMG_0437.jpg
- 基于Java的JAVA项目分析工具设计源码 - JAVAProjectAnalysis
- top888.json
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功