没有合适的资源?快使用搜索试试~ 我知道了~
介绍。所以这里把ROI理解为原图上各个候选框(region proposals),也是可以的。注:说句题外话,由Selective Search算法提取的一系列
资源详情
资源评论
资源推荐
第
八
章
目
标
检
测
8.1 基本概念
8.1.1 什么是目标检测?
8.1.2 目标检测要解决的核心问题?
8.1.3 目标检测算法分类?
8.1.4 目标检测有哪些应用?
8.2 Two Stage目标检测算法
8.2.1 R-CNN
8.2.2 Fast R-CNN
8.2.3 Faster R-CNN
8.2.4 R-FCN
8.2.5 FPN
8.2.6 Mask R-CNN
8.3 One Stage目标检测算法
8.3.1 SSD
8.3.2 DSSD
8.3.3 YOLOv1
8.3.4 YOLOv2
8.3.5 YOLO9000
8.3.6 YOLOv3
8.3.7 RetinaNet
8.3.8 RFBNet
8.3.9 M2Det
8.4 人脸检测
8.4.1 目前主要有人脸检测方法分类?
8.4.2 如何检测图片中不同大小的人脸?
8.4.3 如何设定算法检测最小人脸尺寸?
8.4.4 如何定位人脸的位置?
8.4.5 如何通过一个人脸的多个框确定最终人脸框位置?
8.4.6 基于级联卷积神经网络的人脸检测(Cascade CNN)
8.4.7 基于多任务卷积神经网络的人脸检测(MTCNN)
8.4.8 Facebox
8.5 目标检测的技巧汇总
8.6 目标检测的常用数据集
8.6.1 PASCAL VOC
8.6.2 MS COCO
8.6.3 Google Open Image
8.6.4 ImageNet
8.7 目标检测常用标注工具
8.7.1 LabelImg
8.7.2 labelme
8.7.3 Labelbox
8.7.4 RectLabel
8.7.5 CVAT
8.7.6 VIA
8.7.6 其他标注工具
TODO
参考文献
第八章 目标检测
8.1
基
本
概
念
8.1.1 什么是目标检测?
目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物
体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物
体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测
一直是计算机视觉领域最具有挑战性的问题。
计算机视觉中关于图像识别有四大类任务:
分
类
-Classication:解决“是什么?”的问题,即给定一张图片或一段视频判断
里面包含什么类别的目标。
定
位
-Location:解决“在哪里?”的问题,即定位出这个目标的的位置。
检
测
-Detection:解决“是什么?在哪里?”的问题,即定位出这个目标的的位置
并且知道目标物是什么。
分割
-Segmentation:分为实例的分割(Instance-level)和场景分割(Scene-
level),解决“每一个像素属于哪个目标物或场景”的问题。
8.1.2 目标检测要解决的核心问题?
除了图像分类之外,目标检测要解决的核心问题是:
1.目标可能出现在图像的任何位置。
2.目标有各种不同的大小。
3.目标可能有各种不同的形状。
8.1.3 目标检测算法分类?
基于深度学习的目标检测算法主要分为两类:
1.Two stage
目
标
检
测
算
法
先进行区域生成(region proposal,RP)(一个有可能包含待检物体的预选
框),再通过卷积神经网络进行样本分类。
任务:特征提取—>生成RP—>分类/定位回归。
常见的two stage目标检测算法有:R-CNN、SPP-Net、Fast R-CNN、Faster
R-CNN和R-FCN等。
2.One stage
目
标
检
测
算
法
不用RP,直接在网络中提取特征来预测物体分类和位置。
任务:特征提取—>分类/定位回归。
常见的one stage目标检测算法有:OverFeat、YOLOv1、YOLOv2、
YOLOv3、SSD和RetinaNet等。
8.1.4 目标检测有哪些应用?
目标检测具有巨大的实用价值和应用前景。应用领域包括人脸检测、行人检
测、车辆检测、飞机航拍或卫星图像中道路的检测、车载摄像机图像中的障碍物
检测、医学影像在的病灶检测等。还有在安防领域中,可以实现比如安全帽、安
全带等动态检测,移动侦测、区域入侵检测、物品看护等功能。
8.2 Two Stage
目
标
检
测
算
法
8.2.1 R-CNN
R-CNN
有
哪
些
创
新
点
?
1. 使用CNN(ConvNet)对 region proposals 计算 feature vectors。从
经验驱动特征(SIFT、HOG)到数据驱动特征(CNN feature
map),提高特征对样本的表示能力。
2. 采用大样本下(ILSVRC)有监督预训练和小样本(PASCAL)微调
(ne-tuning)的方法解决小样本难以训练甚至过拟合等问题。
注:ILSVRC其实就是众所周知的ImageNet的挑战赛,数据量极大;PASCAL数
据集(包含目标检测和图像分割等),相对较小。
R-CNN
介
绍
R-CNN作为R-CNN系列的第一代算法,其实没有过多的使用“深度学习”思
想,而是将“深度学习”和传统的“计算机视觉”的知识相结合。比如R-CNN
pipeline中的第二步和第四步其实就属于传统的“计算机视觉”技术。使用
selective search提取region proposals,使用SVM实现分类。
原论文中R-CNN pipeline只有4个步骤,光看上图无法深刻理解R-CNN处理机
制,下面结合图示补充相应文字
1. 预训练模型。选择一个预训练 (pre-trained)神经网络(如
AlexNet、VGG)。
2. 重新训练全连接层。使用需要检测的目标重新训练(re-train)最后全
连接层(connected layer)。
3. 提取 proposals并计算CNN 特征。利用选择性搜索(Selective
Search)算法提取所有proposals(大约2000幅images),调整
(resize/warp)它们成固定大小,以满足 CNN输入要求(因为全连接
层的限制),然后将feature map 保存到本地磁盘。
4. 训练SVM。利用feature map 训练SVM来对目标和背景进行分类(每
个类一个二进制SVM)
5. 边界框回归(Bounding boxes Regression)。训练将输出一些校正因
子的线性回归分类器
R-CNN
实
验
结
果
R-CNN在VOC 2007测试集上mAP达到58.5%,打败当时所有的目标检测算法。
8.2.2 Fast R-CNN
Fast R-CNN
有
哪
些
创
新
点
?
1. 只对整幅图像进行一次特征提取,避免R-CNN中的冗余特征提取
2. 用RoI pooling层替换最后一层的max pooling层,同时引入建议框数
据,提取相应建议框特征
3. Fast R-CNN网络末尾采用并行的不同的全连接层,可同时输出分类结
果和窗口回归结果,实现了end-to-end的多任务训练【建议框提取除
外】,也不需要额外的特征存储空间【R-CNN中的特征需要保持到本
地,来供SVM和Bounding-box regression进行训练】
4. 采用SVD对Fast R-CNN网络末尾并行的全连接层进行分解,减少计算
复杂度,加快检测速度。
Fast R-CNN
介
绍
Fast R-CNN是基于R-CNN和SPPnets进行的改进。SPPnets,其创新点在于计
算整幅图像的the shared feature map,然后根据object proposal在shared
feature map上映射到对应的feature vector(就是不用重复计算feature map
了)。当然,SPPnets也有缺点:和R-CNN一样,训练是多阶段(multiple-
stage pipeline)的,速度还是不够"快",特征还要保存到本地磁盘中。
将候选区域直接应用于特征图,并使用RoI池化将其转化为固定大小的特征图
块。以下是Fast R-CNN的流程图
RoI Pooling
层
详
解
因为Fast R-CNN使用全连接层,所以应用RoI Pooling将不同大小的ROI转换为
固定大小。
RoI Pooling 是Pooling层的一种,而且是针对RoI的Pooling,其特点是输入特征
图尺寸不固定,但是输出特征图尺寸固定(如7x7)。
什么
是
RoI
呢
?
剩余53页未读,继续阅读
VashtaNerada
- 粉丝: 18
- 资源: 297
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0