【免费】目标检测是计算机视觉领域中的一项核心技术，它结合了深度学习技术来识别和定位图像或视频中的多个对象资源-CSDN文库

计算机视觉

需积分: 0 77 浏览量 2024-03-18 22:28:38 上传评论收藏 11.84MB PDF 举报

资源推荐

资源详情

资源评论

第八章 目标检测
1 基本概念
1.1 什么是目标检测？
1.2 目标检测要解决的核心问题？
1.3 目标检测算法分类？
1.4 目标检测有哪些应用？
2 Two Stage目标检测算法 
2.1 R-CNN
2.2 Fast R-CNN
2.3 Faster R-CNN  
2.4 R-FCN
2.5 FPN
2.6 Mask R-CNN
3 One Stage目标检测算法
3.1 SSD  
3.2 DSSD
3.3 YOLOv1
3.4 YOLOv2
3.5 YOLO9000
3.6 YOLOv3
3.7 RetinaNet
3.8 RFBNet
3.9 M2Det
4 人脸检测
4.1 目前主要有人脸检测方法分类？
4.2 如何检测图片中不同大小的人脸？
4.3 如何设定算法检测最小人脸尺寸?
4.4 如何定位人脸的位置？
4.5 如何通过一个人脸的多个框确定最终人脸框位置？
4.6 基于级联卷积神经网络的人脸检测（Cascade CNN）
4.7 基于多任务卷积神经网络的人脸检测（MTCNN）
4.8 Facebox
5 目标检测的技巧汇总
6 目标检测的常用数据集
6.1 PASCAL VOC
6.2 MS COCO
6.3 Google Open Image
6.4 ImageNet
TODO
参考文献
第八章 目标检测  
1 基本概念  
1.1 什么是目标检测？  
  目标检测（Object Detection）的任务是找出图像中所有感兴趣的目标（物体），确定它们的类别和
位置，是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态，加上成像时光
照、遮挡等因素的干扰，目标检测一直是计算机视觉领域最具有挑战性的问题。

Fast R-CNN是基于R-CNN和SPPnets进行的改进。SPPnets，其创新点在于计算整幅图像的the

shared feature map，然后根据object proposal在shared feature map上映射到对应的feature

vector（就是不用重复计算feature map了）。当然，SPPnets也有缺点：和R-CNN一样，训练是多阶

段（multiple-stage pipeline）的，速度还是不够"快"，特征还要保存到本地磁盘中。

将候选区域直接应用于特征图，并使用RoI池化将其转化为固定大小的特征图块。以下是Fast R-CNN的

流程图

RoI Pooling层详解

因为Fast R-CNN使用全连接层，所以应用RoI Pooling将不同大小的ROI转换为固定大小。

RoI Pooling 是Pooling层的一种，而且是针对RoI的Pooling，其特点是输入特征图尺寸不固定，但是输

出特征图尺寸固定（如7x7）。

什么是RoI呢？

RoI是Region of Interest的简写，一般是指图像上的区域框，但这里指的是由Selective Search提取的候

选框。

往往经过RPN后输出的不止一个矩形框，所以这里我们是对多个RoI进行Pooling。

RoI Pooling的输入

输入有两部分组成：

1. 特征图（feature map）：指的是上面所示的特征图，在Fast RCNN中，它位于RoI Pooling之前，

在Faster RCNN中，它是与RPN共享那个特征图，通常我们常常称之为“share_conv”；

2. RoIs，其表示所有RoI的N*5的矩阵。其中N表示RoI的数量，第一列表示图像index，其余四列表

示其余的左上角和右下角坐标。

在Fast RCNN中，指的是Selective Search的输出；在Faster RCNN中指的是RPN的输出，一堆矩形候选

框，形状为1x5x1x1（4个坐标+索引index），其中值得注意的是：坐标的参考系不是针对feature map

这张图的，而是针对原图的（神经网络最开始的输入）。其实关于ROI的坐标理解一直很混乱，到底是

根据谁的坐标来。其实很好理解，我们已知原图的大小和由Selective Search算法提取的候选框坐标，

剩余52页未读，继续阅读

内容反馈

fighting的码农(zg)-GPT

粉丝: 345
资源: 34

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip