没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
53页
目标检测,作为计算机视觉领域的重要分支,已经成为深度学习技术发展的一个显著标志。这项技术不仅能够识别图像或视频中的各种对象,还能准确地定位它们的具体位置,这一过程通常通过在目标周围画出边界框来实现。目标检测的应用范围广泛,包括实时监控、自动识别、自动驾驶、人脸识别、行为分析等领域,其在智能化系统中的应用越来越广泛,已成为现代技术不可或缺的一部分。 在实时监控方面,目标检测技术的应用尤为重要。它可以实时识别监控画面中的人员、车辆、物品等,为安全监控提供有效的技术支持。这对于提高公共安全、优化交通管理、增强防范能力等方面都有着重要意义。自动识别方面,目标检测技术能够识别特定物体或场景,广泛应用于零售、物流、医疗等领域,如在零售业中,可以通过目标检测技术自动识别货架上的商品,实现智能结账。 技术层面上,目标检测主要依赖于深度学习模型,如卷积神经网络(CNN)、区域卷积神经网络(R-CNN)等。这些模型能够处理大量的图像数据,通过学习和分析图像中的视觉特征,实现对不同对象的识别和定位。随着算法的不断优化和计算能力的提升,目标检测技术在准确性和处理速度方面都取得了显著进步,能够满足实时处理。
资源推荐
资源详情
资源评论
第八章 目标检测
8.1 基本概念
8.1.1 什么是目标检测?
8.1.2 目标检测要解决的核心问题?
8.1.3 目标检测算法分类?
8.1.4 目标检测有哪些应用?
8.2 Two Stage目标检测算法
8.2.1 R-CNN
8.2.2 Fast R-CNN
8.2.3 Faster R-CNN
8.2.4 R-FCN
8.2.5 FPN
8.2.6 Mask R-CNN
8.3 One Stage目标检测算法
8.3.1 SSD
8.3.2 DSSD
8.3.3 YOLOv1
8.3.4 YOLOv2
8.3.5 YOLO9000
8.3.6 YOLOv3
8.3.7 RetinaNet
8.3.8 RFBNet
8.3.9 M2Det
8.4 人脸检测
8.4.1 目前主要有人脸检测方法分类?
8.4.2 如何检测图片中不同大小的人脸?
8.4.3 如何设定算法检测最小人脸尺寸?
8.4.4 如何定位人脸的位置?
8.4.5 如何通过一个人脸的多个框确定最终人脸框位置?
8.4.6 基于级联卷积神经网络的人脸检测(Cascade CNN)
8.4.7 基于多任务卷积神经网络的人脸检测(MTCNN)
8.4.8 Facebox
8.5 目标检测的技巧汇总
8.6 目标检测的常用数据集
8.6.1 PASCAL VOC
8.6.2 MS COCO
8.6.3 Google Open Image
8.6.4 ImageNet
TODO
参考文献
第八章 目标检测
8.1 基本概念
8.1.1 什么是目标检测?
目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和
位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光
照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。
计算机视觉中关于图像识别有四大类任务:
分类-Classification:解决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目
标。
定位-Location:解决“在哪里?”的问题,即定位出这个目标的的位置。
检测-Detection:解决“是什么?在哪里?”的问题,即定位出这个目标的的位置并且知道目标物是什
么。
分割-Segmentation:分为实例的分割(Instance-level)和场景分割(Scene-level),解决“每一个像
素属于哪个目标物或场景”的问题。
8.1.2 目标检测要解决的核心问题?
除了图像分类之外,目标检测要解决的核心问题是:
1.目标可能出现在图像的任何位置。
2.目标有各种不同的大小。
3.目标可能有各种不同的形状。
8.1.3 目标检测算法分类?
基于深度学习的目标检测算法主要分为两类:
1.Two stage目标检测算法
先进行区域生成(region proposal,RP)(一个有可能包含待检物体的预选框),再通过卷积神经
网络进行样本分类。
任务:特征提取—>生成RP—>分类/定位回归。
常见的two stage目标检测算法有:R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN和R-FCN等。
2.One stage目标检测算法
不用RP,直接在网络中提取特征来预测物体分类和位置。
任务:特征提取—>分类/定位回归。
常见的one stage目标检测算法有:OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD和RetinaNet等。
8.1.4 目标检测有哪些应用?
目标检测具有巨大的实用价值和应用前景。应用领域包括人脸检测、行人检测、车辆检测、飞机航拍
或卫星图像中道路的检测、车载摄像机图像中的障碍物检测、医学影像在的病灶检测等。还有在安防领
域中,可以实现比如安全帽、安全带等动态检测,移动侦测、区域入侵检测、物品看护等功能。
8.2 Two Stage目标检测算法
8.2.1 R-CNN
R-CNN有哪些创新点?
1. 使用CNN(ConvNet)对 region proposals 计算 feature vectors。从经验驱动特征(SIFT、
HOG)到数据驱动特征(CNN feature map),提高特征对样本的表示能力。
2. 采用大样本下(ILSVRC)有监督预训练和小样本(PASCAL)微调(fine-tuning)的方法解决小样
本难以训练甚至过拟合等问题。
注:ILSVRC其实就是众所周知的ImageNet的挑战赛,数据量极大;PASCAL数据集(包含目标检测和图
像分割等),相对较小。
R-CNN 介绍
R-CNN作为R-CNN系列的第一代算法,其实没有过多的使用“深度学习”思想,而是将“深度学习”和传
统的“计算机视觉”的知识相结合。比如R-CNN pipeline中的第二步和第四步其实就属于传统的“计算机视
觉”技术。使用selective search提取region proposals,使用SVM实现分类。
原论文中R-CNN pipeline只有4个步骤,光看上图无法深刻理解R-CNN处理机制,下面结合图示补充相
应文字
1. 预训练模型。选择一个预训练 (pre-trained)神经网络(如AlexNet、VGG)。
2. 重新训练全连接层。使用需要检测的目标重新训练(re-train)最后全连接层(connected
layer)。
3. 提取 proposals并计算CNN 特征。利用选择性搜索(Selective Search)算法提取所有
proposals(大约2000幅images),调整(resize/warp)它们成固定大小,以满足 CNN输入要
求(因为全连接层的限制),然后将feature map 保存到本地磁盘。
4. 训练SVM。利用feature map 训练SVM来对目标和背景进行分类(每个类一个二进制SVM)
5. 边界框回归(Bounding boxes Regression)。训练将输出一些校正因子的线性回归分类器
R-CNN 实验结果
R-CNN在VOC 2007测试集上mAP达到58.5%,打败当时所有的目标检测算法。
8.2.2 Fast R-CNN
Fast R-CNN有哪些创新点?
1. 只对整幅图像进行一次特征提取,避免R-CNN中的冗余特征提取
2. 用RoI pooling层替换最后一层的max pooling层,同时引入建议框数据,提取相应建议框特征
3. Fast R-CNN网络末尾采用并行的不同的全连接层,可同时输出分类结果和窗口回归结果,实现了
end-to-end的多任务训练【建议框提取除外】,也不需要额外的特征存储空间【R-CNN中的特征
需要保持到本地,来供SVM和Bounding-box regression进行训练】
4. 采用SVD对Fast R-CNN网络末尾并行的全连接层进行分解,减少计算复杂度,加快检测速度。
Fast R-CNN 介绍
Fast R-CNN是基于R-CNN和SPPnets进行的改进。SPPnets,其创新点在于计算整幅图像的the
shared feature map,然后根据object proposal在shared feature map上映射到对应的feature
vector(就是不用重复计算feature map了)。当然,SPPnets也有缺点:和R-CNN一样,训练是多阶
段(multiple-stage pipeline)的,速度还是不够"快",特征还要保存到本地磁盘中。
将候选区域直接应用于特征图,并使用RoI池化将其转化为固定大小的特征图块。以下是Fast R-CNN的
流程图
RoI Pooling层详解
因为Fast R-CNN使用全连接层,所以应用RoI Pooling将不同大小的ROI转换为固定大小。
RoI Pooling 是Pooling层的一种,而且是针对RoI的Pooling,其特点是输入特征图尺寸不固定,但是输
出特征图尺寸固定(如7x7)。
什么是RoI呢?
RoI是Region of Interest的简写,一般是指图像上的区域框,但这里指的是由Selective Search提取的候
选框。
往往经过RPN后输出的不止一个矩形框,所以这里我们是对多个RoI进行Pooling。
RoI Pooling的输入
输入有两部分组成:
1. 特征图(feature map):指的是上面所示的特征图,在Fast RCNN中,它位于RoI Pooling之前,
在Faster RCNN中,它是与RPN共享那个特征图,通常我们常常称之为“share_conv”;
2. RoIs,其表示所有RoI的N*5的矩阵。其中N表示RoI的数量,第一列表示图像index,其余四列表
示其余的左上角和右下角坐标。
在Fast RCNN中,指的是Selective Search的输出;在Faster RCNN中指的是RPN的输出,一堆矩形候选
框,形状为1x5x1x1(4个坐标+索引index),其中值得注意的是:坐标的参考系不是针对feature map
这张图的,而是针对原图的(神经网络最开始的输入)。其实关于ROI的坐标理解一直很混乱,到底是
根据谁的坐标来。其实很好理解,我们已知原图的大小和由Selective Search算法提取的候选框坐标,
剩余52页未读,继续阅读
资源评论
fighting的码农(zg)-GPT
- 粉丝: 345
- 资源: 34
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 5uonly.apk
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 前端开发技术实验报告:内含4四实验&实验报告
- Highlight Plus v20.0.1
- 林周瑜-论文.docx
- 基于MIC+NE555光敏电阻的声光控电路Multisim仿真原理图
- 基于JSP毕业设计-基于WEB操作系统课程教学网站的设计与实现(源代码+论文).zip
- 基于LM324和LM386的音响放大器Multisim仿真+PCB电路原理图
- Python机器学习与数据挖掘环境配置与库验证
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功