没有合适的资源?快使用搜索试试~ 我知道了~
R-FCN中文翻译1
需积分: 0 0 下载量 15 浏览量
2022-08-03
16:26:32
上传
评论
收藏 1.35MB PDF 举报
温馨提示
试读
21页
摘要我们提出了基于 Region 的全卷积网络,以实现准确和高效的目标检测。相比,这些检测器每次需要对每个 region 运行非常耗时子网络,我们的基于区域的检
资源详情
资源评论
资源推荐
1
目标检测经典论文翻译汇总:[翻译汇总]
翻译 pdf 文件下载:[下载地址]
此版为纯中文版,中英文对照版请稳步:[R-FCN 中英文对照版]
R-FCN: Object Detection via Region-based Fully
Convolutional Networks
基于 Region 的全卷积神经网络进行目标检测
Jifeng Dai
Microsoft Research
Yi Li*
Tsinghua University
Kaiming He
Microsoft Research
Jian Sun(孙剑)
Microsoft Research
摘要
我们提出了基于 Region 的全卷积网络,以实现准确和高效的目
标检测。与先前的基于区域的检测器(如 Fast/Faster R-CNN [6,18])
相比,这些检测器每次需要对每个 region 运行非常耗时子网络,我们
的基于区域的检测器是全卷积的,几乎所有计算都在整张图像上共享。
为了实现这一目标,我们提出了位置敏感分数图(position-sensitive
score maps),以解决图像分类中的平移不变性与目标检测中的平移
可变性之间的矛盾。因此,我们的方法自然地采用全卷积图像分类器
的主干网络,如最新的残差网络(ResNets)[9],用于目标检测。我们
使用 101 层 ResNet 在 PASCAL VOC 数据集上获得了具有竞争力的
结果(例如,2007 数据集上 83.6%的 mAP)。同时,我们的测试结果
达到每张图像 170ms 的测试速度,比 Faster R-CNN 相应的配置速度
快 2.5-20 倍。代码公开发布在:https://github.com/daijifeng001/r-fcn。
2
( 译者注 : 上 面 github 的 代码为 Matlab 版,Python 版 :
https://github.com/YuwenXiong/py-R-FCN)
1. 引言
流行的目标检测深度网络家族[8,6,18]通过感兴趣区域(RoI)
池化层[6]可以将网络划分成两个子网络:(1)独立于 RoI 的共享“全
卷积”子网络,(ii)不共享计算的 RoI 子网络。这种分解[8]以往是
由开创性的分类架构产生的,例如 AlexNet[10]和 VGG Nets[23]等,
在设计上它由两个子网络组成——一个卷积子网络以空间池化层结
束,后面是几个全连接(fc)层。因此,图像分类网络中的(最后一
个)空间池化层在目标检测网络中[8,6,18]自然地变成了 RoI 池化
层。
但是最近最先进的图像分类网络,如残差网络(ResNets)[9]和
GoogLeNets[24,26]都是被设计成全卷积的。通过类比,在目标检测
架构中使用所有卷积层来构建共享的卷积子网络似乎是很自然的,使
得 RoI 的子网络没有隐藏层。然而,对这项工作通过经验性的研究发
现,这个 naive 的解决方案有相当差的检测精度,无法获得更好的分
类精度。为了解决这个问题,在 ResNet 论文[9]中将 Faster R-CNN 检
测器[18]的 RoI 池化层不自然地插入到两组卷积层之间——这便构建
了更深的 RoI 子网络,其改善了精度,但由于非共享的逐 RoI 计算使
得运行速度更低。
我们认为,前面提到的非自然设计源于图像分类任务希望增加变
换不变性与目标检测希望保持平移可变性之间的矛盾。一方面,图像
3
水平的分类任务更希望具有平移不变性——图像内的目标位置的移
动对分类结果应该是无差别的。因此,深度(全)卷积架构尽可能保
持平移不变性,这一点可以从 ImageNet 分类[9,24,26]的主要结果
中得到证实。另一方面,目标检测任务的定位表示需要一定程度上满
足平移可变性。例如,在候选框内目标变换应该产生有意义的响应,
用于描述候选框与目标的重叠程度。我们假设图像分类网络中较深的
卷积层对平移不太敏感。为了解决这个困境,ResNet 论文的检测流程
[9]将 RoI 池化层插入到卷积中——特定区域的操作打破了平移不变
性,当在不同区域进行评估时,RoI 后卷积层不再是平移不变的。然
而,这个设计牺牲了训练和测试效率,因为它引入了大量的区域层(表
1)。
表 1:使用 ResNet-101 的基于区域的检测器方法[9]。
在本文中,我们开发了一个称为基于区域的全卷积网络(R-FCN)
框架来进行目标检测。我们的网络由共享的全卷积架构组成,就像
FCN[15]一样。为了将平移可变性并入 FCN,我们通过使用一组专门
的卷积层作为 FCN 输出来构建一组位置敏感的分数图。这些分数图
中的每一个都编码相对应的空间位置信息(例如,“在目标的左边”)。
在这个 FCN 的顶部,我们添加了一个位置敏感的 RoI 池化层,它从
这些分数图中获取信息,并且后面没有权重(卷积层或全连接层)层。
整个架构是端到端的学习。所有可学习的层都是卷积层,并在整个图
4
像上共享计算,同时也对目标检测所需的空间信息进行了编码。图 1
阐述了其主要思想,表 1 比较了基于区域的不同检测器方法。
图 1:R-FCN 用于目标检测的主要思想。在这个图中,由全卷积网络生成了 k×
k=3×3 的位置敏感分数图。对于 RoI 中的每个 k×k bins,池化是在每个 k
2
个
映射图(用不同的颜色标记)上单独进行的。
使用 101 层的残差网络(ResNet-101)[9]作为 backbone(译者注:
也就是网络的主干部分,用于提取并输出输入图像的特征图),我们
的 R-FCN 在 PASCAL VOC 2007 数据集和 2012 数据集上分别获得了
83.6%的 mAP 和 82.0%的 mAP。同时,使用 ResNet-101 时我们的模
型在测试时运行每张图像只需 170ms,比 [9]中相应的 Faster R-CNN +
ResNet-101 模型快了 2.5 倍到 20 倍。这些实验表明,我们的方法设
法解决平移不变性/可变性之间的矛盾,并且全卷积图像水平的分类
器,例如 ResNet,可以有效地转换为全卷积目标检测器。代码公开发
布在:https://github.com/daijifeng001/r-fcn(译者注:此代码为 Matlab
版,Python 版:https://github.com/YuwenXiong/py-R-FCN)。
2. 我们的方法
剩余20页未读,继续阅读
韩金虎
- 粉丝: 25
- 资源: 285
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- pta题库答案c语言之排序4统计工龄.zip
- pta题库答案c语言之树结构7堆中的路径.zip
- pta题库答案c语言之树结构3TreeTraversalsAgain.zip
- pta题库答案c语言之树结构2ListLeaves.zip
- pta题库答案c语言之树结构1树的同构.zip
- 基于C++实现民航飞行与地图简易管理系统可执行程序+说明+详细注释.zip
- pta题库答案c语言之复杂度1最大子列和问题.zip
- 三维装箱问题(Three-Dimensional Bin Packing Problem,3D-BPP)是一个经典的组合优化问题
- 以下是一些关于Linux线程同步的基本概念和方法.txt
- 以下是一个简化的示例,它使用pygame库来模拟烟花动画的框架.txt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0