【免费】【走读】FasterR-CNNTowardsReal-TimeObjectDetectionwithRegion资源-CSDN文库

需积分: 0 26 浏览量 2022-08-03 18:14:52 上传评论收藏 273KB PDF 举报

资源详情

资源评论

资源推荐

Faster R-CNN Towards Real-Time Object Detection with Region Proposal

Networks

文献走读：

摘要：现如今较好的目标检测网络，依托于region proposal算法来假定目标的位置。

较好的有SPPnet[1]和Fast R-CNN方法，均大幅减少了检测的时间，也指出了region proposal 的计算是检测的瓶颈。

本文中，我们引入了Region Proposal 网络(RPN)，它与detection网络共享整幅图像的卷积特征，这使得region proposal成本几乎为

0。RPN是一种完全卷积网络，它同时预测了目标的位置（bounds）并计算每一个位置的检测分数（成为目标的可能性）。RPN采用端到

端的方式训练，以生成高质量的region proposal，Fast R-CNN正是用此来检测目标的。

进一步，我们将RPN和Fast R-CNN合并为一个网络——通过共享他们的卷积特征，换句近期很流行的术语来讲，即神经网络的"注意

力"机制（attention mechanism）。RPN部分告诉整个网络往哪里“看”。

对于文献3中的超深VGG-16模型，我们的检测系统在GPU上达到了5fps的帧率，同时在PASCAL VOC2007，2012上实现了极佳的目标检

测准确率，在MS COCO数据库上每张图片仅提出300个候选区域。在ILSVRC和COCO 2015竞赛中，冠军分别是使用Faster R-CNN和

RPN来完成的。并且本方法代码公开了。

1 介绍

近期的目标检测的进步主要是基于region proposal方法和基于region的卷积神经网络方法的成功。尽管在最初的方法【5】中，基于

region的CNN的计算代价很高，但得益于【1，2】中提出的对proposal区域的卷积共享，这部分代价大大减少了、最近的衍生方法中，

忽略region proposal花费的时间后，Fast R-CNN使用很深的网络实现了实时检测。现如今，proposal成为各个顶级方法中的计算瓶颈。

Region proposal方法主要依托于廉价的特征和快速经济的推测方案。选择性搜索（Selective Search[4]）就是一种流行RP方法，它基于

工程性的低水平特征进行了大量的像素合并。如今与【2】提出的高效检测网络相比，选择性搜索在CPU实现中，每张图片需要2s，就显

得相当慢了。[6]中的EdgeBoxes(边缘boxes)方法，在proposal质量和速度之间给出了很好的平衡，达到了0.2s/image。尽管如

此，region proposal step仍然在检测网络中耗费了大量的运行时间。

注意到基于region的快速CNN的方法利用到了GPU的优势，然而以往研究中的region proposal方法是CPU实现的，这显然造成了运行时

间的不相容（proposal太慢）。一种明显的加速proposal计算的方法是使用GPU再次实现之。这或许是一个高效工程方案，但是重新师

兄忽略了下游检测网络并且也因此漏掉了重要的机会进行共享计算。

本文中，我们进行了算法改进，我们使用深层的卷积神经网络来计算proposals、这是一种优雅且高效的解决方案，因为在已有的检测网

络计算的基础上，proposal的计算几乎是不花费时间的。最后，我们引出了新颖的RPN,它与【1，2】中的目标检测网络共享卷积层。通

过在test-time阶段共享卷积特征，计算proposals的边际成本变得很小。（10ms/image）

我们发现基于region的检测器（如Fast R-CNN）使用的卷积特征maps，也可以用于生成region proposals。在这些卷积特征的顶层，我

们通过增加一点额外的卷积层来构造了一个RPN，这些卷积层对region bounds进行回归，同时对网格中每个位置给出目标分数。因

此，RPN是一种完全卷积网络，可以进行端到端的训练，以生成检测的proposals。

RPN网络是为了对大范围的尺寸和宽高比的场景，进行高效的region proposals。与普通的使用图像金字塔或金字塔滤波器的方法相比，

我们引入了新颖的anchor boxes。anchor boxes像是一种固定点，在多尺度和多宽高比时，它可以作为一种参照物。我们的方案可以看

成是对回归参照的金字塔设计，这避免了对多尺度和多宽高比情况下的图像枚举或滤波器遍历。当使用单尺度图像进行训练和测试时，这

种模型性能很好，两者相得益彰。

为了统一RPN和Fast R-CNN网络，我们提出了一种训练方案——时而进行对region proposal任务进行微调，或者在proposal固定时对

目标检测任务微调。这种方案收敛很快，并且产生了一个统一的网络——在两个任务之间，卷积特征被共享了。

我们在PASCAL VOC上进行测试，本方案（RPN结合Fast R-CNN）比基线方案（Selective Search结合Fast R-CNN）准确率高很多。同

时，我们的方法几乎释放了Selective Search方案在test-time阶段的所有计算负担——我们的proposals时间仅需10ms。使用【3】中非

常庞大深层的模型时，我们在GPU模式下仍能达到5fps的速度，从速度和准确度角度来看，这是一个极具实用价值的目标检测系统。在

MS COCO数据库上有评测结果，也改进了PASCAL VOC的结果。MATLAB和Python版本的实现参考github.

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

评论0

内容反馈

张盛锋

粉丝: 25
资源: 297

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip