没有合适的资源?快使用搜索试试~ 我知道了~
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD.doc
3星 · 超过75%的资源 需积分: 45 77 下载量 6 浏览量
2019-12-23
10:46:32
上传
评论 7
收藏 88KB DOC 举报
温馨提示
试读
12页
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD。传统的目标检测算法、候选区域/窗 + 深度学习分类
资源推荐
资源详情
资源评论
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-
CNN、YOLO、SSD
一、目标检测常见算法
object detection,就是在给定的图片中精确找到物体所在位置,并标注出物体
的类别。所以,object detection 要解决的问题就是物体在哪里以及是什么的整
个流程问题。
然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体
的角度,姿态不定,而且可以出现在图片的任何地方,更何况物体还可以是多
个类别。
目前学术和工业界出现的目标检测算法分成 3 类:
1. 传统的目标检测算法:Cascade + HOG/DPM + Haar/SVM 以及上述方法的
诸多改进、优化;
2. 候选区域/ 框 + 深度学习分类:通过提取候选区域,并对相应区域进行以深度
学习方法为主的分类的方案,如:
R-CNN(Selective Search + CNN + SVM)
SPP-net(ROI Pooling)
Fast R-CNN(Selective Search + CNN + ROI)
Faster R-CNN(RPN + CNN + ROI)
R-FCN
等系列方法;
3. 基于深度学习的回归方法:YOLO/SSD/DenseBox 等方法;以及最近出现的
结合 RNN 算法的 RRC detection;结合 DPM 的 Deformable CNN 等
传统目标检测流程:
1)区域选择(穷举策略:采用滑动窗口,且设置不同的大小,不同的长宽比对
图像进行遍历,时间复杂度高)
2)特征提取(SIFT、HOG 等;形态多样性、光照变化多样性、背景多样性使
得特征鲁棒性差)
3)分类器分类(主要有 SVM、Adaboost 等)
二、传统的目标检测算法
2.1 从图像识别的任务说起
这里有一个图像任务:既要把图中的物体识别出来,又要用方框框出它的位置。
这个任务本质上就是这两个问题:一:图像识别,二:定位。
图像识别(classification):
输入:图片
输出:物体的类别
评估方法:准确率
定位(localization):
输入:图片
输出:方框在图片中的位置(x,y,w,h)
评估方法:检测评价函数 intersection-over-union(关于什么是 IOU,请参看本
深度学习分类下第 55 题:https://www.julyedu.com/question/big/kp_id/26/
ques_id/2138)
卷积神经网络 CNN 已经帮我们完成了图像识别(判定是猫还是狗)的任务了,
我们只需要添加一些额外的功能来完成定位任务即可。
定位的问题的解决思路有哪些?
思路一:看做回归问题
看做回归问题,我们需要预测出(x,y,w,h)四个参数的值,从而得出方框的位
置。
步骤 1:
* 先解决简单问题, 搭一个识别图像的神经网络
*在 AlexNet VGG GoogleLenet 上 fine-tuning 一下(关于什么是微调 fine-
tuning,请参看本深度学习分类下第 54 题:https://www.julyedu.com/
question/big/kp_id/26/ques_id/2137)
步骤 2:
*在上述神经网络的尾部展开(也就说 CNN 前面保持不变,我们对 CNN 的结尾
“ ” “ ”处作出改进:加了两个头: 分类头 和 回归头 )
*成为 classification + regression 模式
步骤 3:
*Regression 那个部分用欧氏距离损失
*使用 SGD 训练
步骤 4:
*预测阶段把 2 个头部拼上
*完成不同的功能
这里需要进行两次 fine-tuning
第一次在 ALexNet 上做,第二次将头部改成 regression head,前面不变,做
一次 fine-tuning
Regression 的部分加在哪?
有两种处理方法:
•加在最后一个卷积层后面(如 VGG)
•加在最后一个全连接层后面(如 R-CNN)
regression 太难做了,应想方设法转换为 classification 问题。
regression 的训练参数收敛的时间要长得多,所以上面的网络采取了用
classification 的网络来计算出网络共同部分的连接权值。
思路二:取图像窗口
•还是刚才的 classification + regression 思路
• “ ”咱们取不同的大小的 框
•让框出现在不同的位置,得出这个框的判定得分
•取得分最高的那个框
左上角的黑框:得分 0.5
右上角的黑框:得分 0.75
左下角的黑框:得分 0.6
右下角的黑框:得分 0.8
剩余11页未读,继续阅读
资源评论
- 看到一朵花没2023-05-06别下,浪费积分
- souldole2023-04-04受教了,很好的资源,感谢
- bojunxiong2021-08-04垃圾,别下
星际流
- 粉丝: 0
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功