没有合适的资源?快使用搜索试试~ 我知道了~
【走读】Faster R-CNN Towards Real-Time Object Detection with Region
需积分: 0 1 下载量 26 浏览量
2022-08-03
18:14:52
上传
评论
收藏 273KB PDF 举报
温馨提示
试读
3页
摘要:现如今较好的目标检测网络,依托于regionproposal算法来假定目标的位置。较好的有SPPnet[1]和Fast R-CNN方法,均大幅减少了检测的
资源详情
资源评论
资源推荐
Faster R-CNN Towards Real-Time Object Detection with Region Proposal
Networks
文献走读:
摘要:现如今较好的目标检测网络,依托于region proposal算法来假定目标的位置。
较好的有SPPnet[1]和Fast R-CNN方法,均大幅减少了检测的时间,也指出了region proposal 的计算是检测的瓶颈。
本文中,我们引入了Region Proposal 网络(RPN),它与detection网络共享整幅图像的卷积特征,这使得region proposal成本几乎为
0。RPN是一种完全卷积网络,它同时预测了目标的位置(bounds)并计算每一个位置的检测分数(成为目标的可能性)。RPN采用端到
端的方式训练,以生成高质量的region proposal,Fast R-CNN正是用此来检测目标的。
进一步,我们将RPN和Fast R-CNN合并为一个网络——通过共享他们的卷积特征,换句近期很流行的术语来讲,即神经网络的"注意
力"机制(attention mechanism)。RPN部分告诉整个网络往哪里“看”。
对于文献3中的超深VGG-16模型,我们的检测系统在GPU上达到了5fps的帧率,同时在PASCAL VOC2007,2012上实现了极佳的目标检
测准确率,在MS COCO数据库上每张图片仅提出300个候选区域。在ILSVRC和COCO 2015竞赛中,冠军分别是使用Faster R-CNN和
RPN来完成的。并且本方法代码公开了。
1 介绍
近期的目标检测的进步主要是基于region proposal方法和基于region的卷积神经网络方法的成功。尽管在最初的方法【5】中,基于
region的CNN的计算代价很高,但得益于【1,2】中提出的对proposal区域的卷积共享,这部分代价大大减少了、最近的衍生方法中,
忽略region proposal花费的时间后,Fast R-CNN使用很深的网络实现了实时检测。现如今,proposal成为各个顶级方法中的计算瓶颈。
Region proposal方法主要依托于廉价的特征和快速经济的推测方案。选择性搜索(Selective Search[4])就是一种流行RP方法,它基于
工程性的低水平特征进行了大量的像素合并。如今与【2】提出的高效检测网络相比,选择性搜索在CPU实现中,每张图片需要2s,就显
得相当慢了。[6]中的EdgeBoxes(边缘boxes)方法,在proposal质量和速度之间给出了很好的平衡,达到了0.2s/image。尽管如
此,region proposal step仍然在检测网络中耗费了大量的运行时间。
注意到基于region的快速CNN的方法利用到了GPU的优势,然而以往研究中的region proposal方法是CPU实现的,这显然造成了运行时
间的不相容(proposal太慢)。一种明显的加速proposal计算的方法是使用GPU再次实现之。这或许是一个高效工程方案,但是重新师
兄忽略了下游检测网络并且也因此漏掉了重要的机会进行共享计算。
本文中,我们进行了算法改进,我们使用深层的卷积神经网络来计算proposals、这是一种优雅且高效的解决方案,因为在已有的检测网
络计算的基础上,proposal的计算几乎是不花费时间的。最后,我们引出了新颖的RPN,它与【1,2】中的目标检测网络共享卷积层。通
过在test-time阶段共享卷积特征,计算proposals的边际成本变得很小。(10ms/image)
我们发现基于region的检测器(如Fast R-CNN)使用的卷积特征maps,也可以用于生成region proposals。在这些卷积特征的顶层,我
们通过增加一点额外的卷积层来构造了一个RPN,这些卷积层对region bounds进行回归,同时对网格中每个位置给出目标分数。因
此,RPN是一种完全卷积网络,可以进行端到端的训练,以生成检测的proposals。
RPN网络是为了对大范围的尺寸和宽高比的场景,进行高效的region proposals。与普通的使用图像金字塔或金字塔滤波器的方法相比,
我们引入了新颖的anchor boxes。anchor boxes像是一种固定点,在多尺度和多宽高比时,它可以作为一种参照物。我们的方案可以看
成是对回归参照的金字塔设计,这避免了对多尺度和多宽高比情况下的图像枚举或滤波器遍历。当使用单尺度图像进行训练和测试时,这
种模型性能很好,两者相得益彰。
为了统一RPN和Fast R-CNN网络,我们提出了一种训练方案——时而进行对region proposal任务进行微调,或者在proposal固定时对
目标检测任务微调。这种方案收敛很快,并且产生了一个统一的网络——在两个任务之间,卷积特征被共享了。
我们在PASCAL VOC上进行测试,本方案(RPN结合Fast R-CNN)比基线方案(Selective Search结合Fast R-CNN)准确率高很多。同
时,我们的方法几乎释放了Selective Search方案在test-time阶段的所有计算负担——我们的proposals时间仅需10ms。使用【3】中非
常庞大深层的模型时,我们在GPU模式下仍能达到5fps的速度,从速度和准确度角度来看,这是一个极具实用价值的目标检测系统。在
MS COCO数据库上有评测结果,也改进了PASCAL VOC的结果。MATLAB和Python版本的实现参考github.
张盛锋
- 粉丝: 25
- 资源: 297
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0