没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
127页
Mask-RCNN提出了一个实例分割的框架,可以在有效地检测图像中目标的同时为每一个实例产生一个高质量分割Mask。 Mask-RCNN扩展了Faster R-CNN,通过在之前已存在的边界框回归分支上添加新的一个预测目标Mask的分支。
资源推荐
资源详情
资源评论
Mask-RCNN大纲
-----(侯明阳)
零、Abstract
Mask-RCNN提出了一个实例分割的框架,可以在有效地检测图像中目标的同时为每一个实例产生
一个高质量分割Mask。
Mask-RCNN扩展了Faster R-CNN,通过在之前已存在的边界框回归分支上添加新的一个预测目标
Mask的分支。
一、Introduction
第一段:目标检测与语义分割发展迅速,获益于强大的基线系统框架(Faster R-CNN和FCN等),
Mask-RCNN则是实例分割的框架。
第二段:实例分割结合了目标检测和语义分割,需要正确检测图片中的所有目标,同时分割每一个实
例。Mask-RCNN目标是去分类每一个实例,使用边界框定位每一个实例,并且进行语义分割(为每一个
固定的像素分类不区分实例)。
第三段:Mask-RCNN扩展了Faster R-CNN,通过在每一个ROI上添加了一个新的预测目标Mask的分支
(是一个很小的FCN应用在每一个ROI上,以像素到像素的方式预测一个分割Mask)。同时包含之前的
分类分支和边界框回归分支。
第四段:第一:Faster R-CNN在网络的输入输出中没有设计像素到像素的对齐(表现在RoIPool上,它
对于特征提取做了粗糙的空间量化),为了修复这个错误,我们提出了RoIAlign(简单、免量化),它
完整地保留了精确的空间位置。有了更好的结果。第二:我们独立的为每一个类别预测了一个二元
Mask,没有类间竞争,并且依赖于网络的RoI分类分支的预测类别结果。(FCNs使用的是逐像素多类别
分类,结合了分割和分类,表现不佳)
第五段:Mask-RCNN在COCO数据集上的实力分割任务中表现良好
第六段:Mask-RCNN在GPU上运行良好
第七段:Mask-RCNN在COCO数据集上的人体姿态估计任务中表现良好(通过将每一个 关键点作为一
个one-hot二元掩码)
二、Related Work
2.1、R-CNN
R-CNN方法是通过找到一定数量的候选区域 ,并独立地在每个RoI上执行卷积,来进行目标检测
的。 基于R-CNN的改进 ,使用RoIPool在特征图上选取RoI,实现了更快的速度和更好的准确性。Faster
R-CNN通过使用RPN学习注意力机制来产生候选框。还有后续的对Faster R-CNN灵活性和鲁棒性的改
进。
2.2、Instance Segmentation
第一段:在R- CNN的有效性的推动下,目标分割的许多方法都是基于(分割建议)segment proposals
的。先前的方法依赖自下而上的分割 。 DeepMask通过学习提出分割候选,然后使用Fast R-CNN分
类。在这些方法中,分割先于识别,这样做既慢又不太准确。同样,Dai等人提出了一个复杂的多阶段级
联,从候选框中预测候选分割,然后进行分类。相反,我们的方法并行进行掩码和类标签的预测,更简
单也更灵活。
第二段:Li等人的“全卷积实例分割”(FCIS)。 是用全卷积得到一组位置敏感的输出通道候选。这些通
道同时处理目标分类,目标检测和掩码,这使系统速度变得更快。但FCIS在重叠实例上出现系统错误,
并产生虚假边缘(伪象)。
第三段:之前的一些实力分割方法是通过之前成功的语义分割方法改进的,使用逐像素分类的结果
(FCN的输出),去尝试将相同类别的像素裁剪到不同的实体中。
三、Mask R-CNN
Faster R-CNN为每个候选目标输出类标签和边框偏移量。Mask R-CNN添加了一个输出目标掩码的第三
个分支。但是,附加的掩码输出与类和框输出不同,需要提取对象的更精确的空间布局。我们介绍Mask
R-CNN提出的关键点,包括像素到像素对齐,这是Fast/Faster R-CNN的主要缺失。
3.1、Faster R-CNN
Faster R-CNN由两个阶段组成。第一阶段是区域提议网络(RPN),得到候选目标边界框。第二阶段,
本质上是Fast R-CNN ,使用RoIPool从每个候选框中提取特征,并进行分类和边界回归。两个阶段使用
的特征可以共享,以便更快的推理。
3.2、Mask R-CNN
第一段:Mask R-CNN采用相同的两个阶段,具有相同的第一阶段(RPN)。第二阶段,同时预测类别
和边界框偏移量,Mask R-CNN还为每个RoI输出一个二元掩码。
第二段:在训练期间,我们将在每个采样后的RoI上的多任务损失函数定义为XXX。掩码分支对于每个
RoI的输出维度为 ,即K个分辨率为的 二元掩码,K表示类别数量。我们为每个像素应
用Sigmoid,并将定义为平均二元交叉熵损失。对于真实类别为的RoI,仅在第k个掩码上计算(其他掩
码输出不计入损失)。
第三段:我们的Mask损失允许网络为每个类独立地预测二元掩码,这样不会有类间竞争。我们依靠专用
分类分支预测用于选择输出掩码的类标签。这将解耦掩码和类别预测。这与通常将FCN 应用于像素级
Softmax和多重交叉熵损失的语义分段的做法不同。在这种情况下,掩码将在不同类别之间竞争。而我
们的方法,使用了其它方法没有的像素级的Sigmod和二元损失。我们通过实验发现,这种方法是改善目
标分割效果的关键。
3.3、Mask Representation
第一段:掩码表示输入目标的空间布局。因此,与通过全连接(fc)层不可避免地缩短输出向量的类标
签或框偏移不同,提取掩码的空间结构可以通过由卷积提供的像素到像素对齐自然地被解决。
第二段:具体来说,我们使用FCN来为每个RoI预测一个的掩码。这允许掩码分支中的每个层保持
的对象空间布局,而不会将其缩成缺少空间维度的向量表示。与以前使用fc层掩码预测的的方法不同 ,
我们的全卷积表示需要更少的参数,并且如实验所证明的更准确。
第三段:这种像素到像素的行为需要RoI特征,它们本身就是小特征图。为了更好地对齐,以准确地保留
完整的像素空间对应关系,我们开发出在掩模预测中发挥关键作用的以下RoIAlign层。
3.4、RoIAlign
第一段:RoIPool是从每个RoI提取小特征图的标准操作。 RoIPool首先将浮点数表示的RoI缩放到与特征
图匹配的粒度,然后将缩放后的RoI分块,最后汇总每个块覆盖的区域的特征值(通常使用最大池化)。
例如,对在连续坐标系上的计算,其中16是特征图步幅,【-】表示四舍五入。同样地,当对RoI分块时
时也执行同样的计算。这样的计算使RoI与提取的特征错位。虽然这可能不会影响分类,因为分类对小幅
度的变换具有一定的鲁棒性,但它对预测像素级精确的掩码有很大的负面影响。
第二段:为了解决这个问题,我们提出了一个RoIAlign层,可以去除RoIPool的错位,将提取的特征与输
入准确对齐。我们提出的改变很简单:我们避免计算过程中的四舍五入。我们选取分块中的4个常规的位
置,使用双线性插值来计算每个位置的精确值,并将结果汇总(使用最大或平均池化)。(我们抽取四
个常规位置,以便我们可以使用最大或平均池化。事实上,在每个分块中心取一个值(没有池化)几乎
同样有效。我们也可以为每个块采样超过四个位置,我们发现这些位置的收益递减。)
第三段:如我们在中所示,RoIAlign的改进效果明显。我们还比较了中提出的RoIWarp操作。与RoIAlign
不同,RoIWarp忽略了对齐问题,并在的实现中,有像RoIPool那样的四舍五入计算。因此,即使
RoIWarp也采用提到的双线性重采样,它与RoIPool效果差不多。这表明了对齐起到了关键的作用。
3.5、Network Architecture
第一段:为了证明我们的方法的普适性,我们构造了多种不同结构的Mask R-CNN。详细来说就是,我
们使用不同的:(i)用于整个图像上的特征提取的下层卷积网络(backbone),以及(ii)用于检测框识别
(分类和回归)和掩码预测的上层网络(head)。
第二段:我们使用”网络-深度-特征输出层”的方式命名底下层卷积网络(backbone)。我们评估了深度
为50或101层的ResNet和ResNeXt网络。使用ResNet的Faster R-CNN从第四阶段的最终卷积层提取特
征,我们称之为C4。例如,使用ResNet-50的下层网络由ResNet-50-C4表示。
第三段:我们还探讨了Lin等人 最近提出的另一种更有效的下层网络(backbone),称为特征金字塔网
络(FPN)。 FPN使用具有横向连接的自顶向下架构,以从单尺度输入构建网络中的特征金字塔。使用
FPN的Faster R-CNN根据其尺度提取不同级别的金字塔的RoI特征,不过其它部分和平常的ResNet类
似。使用ResNet-FPN进行特征提取的Mask R-CNN可以在精度和速度方面获得极大的提升。
第四段:对于上层网络,我们基本遵循了以前论文中提出的架构,我们添加了一个全卷积的掩码预测分
支。具体来说,我们扩展了 ResNet和FPN中提出的Faster R-CNN的上层网络(backbone)。ResNet-
C4的上层网络包括ResNet的第五阶段(即9层的“res5”),这是计算密集型的。对于FPN,下层网已经
包含了res5,因此可以使上层网络包含更少的卷积核而变的更高效。
(上层网络架构:我们扩展了两种现有的Faster R-CNN上层网络架构 ,分别添加了一个掩码分
支。图中数字表示分辨率和通道数,箭头表示卷积、反卷积或全连接层(可以通过上下文推断,卷
积减小维度,反卷积增加维度。)所有的卷积都是的,除了输出层,是的。反卷积是的,步进为
2,,我们在隐藏层中使用ReLU。左图中,“res5”表示ResNet的第五阶段,简单起见,我们修改了
第一个卷积操作,使用,步长为1的RoI代替,步长为2的RoI。右图中的“”表示堆叠的4个连续的卷
积。)
3.6、Implementation Details
3.6.1、Training
第一段:如果RoI与真值框的IoU不小于0.5,则为正样本,否则为负样本。掩码损失函数仅在RoI的正样
本上定义。掩码目标是RoI及其对应的真值框之间的交集。
第二段:我们采用以图像为中心的训练。图像被缩放(较短边)到800像素。批量大小为每个GPU2个图
像,每个图像具有N个RoI采样,正负样本比例为1:3。 C4下层网络的N为64(如 ),FPN为
512(如)。我们使用8个GPU训练(如此有效的批量大小为16)160k次迭代,学习率为0.02,在120k
次迭代时学习率除以10。我们使用0.0001的权重衰减和0.9的动量。
第三段:RPN锚点跨越5个尺度和3个纵横比。为方便消融,RPN分开训练,不与Mask R-CNN共享特
征。本文中的,RPN和Mask R-CNN具有相同的下层网络,因此它们是可共享的。
3.6.2、Inference
第一段:在测试时,C4下层网络(如)中的候选数量为300,FPN为1000(如)。我们在这些候选上执
行检测框预测分支,然后执行非极大值抑制。然后将掩码分支应用于评分最高100个检测框。尽管这与
训练中使用的并行计算不同,但它可以加速推理并提高精度(由于使用更少,更准确的RoI)。掩码分支
可以预测每个RoI的个掩码,但是我们只使用第个掩码,其中是分类分支预测的类别。然后将浮点数掩码
输出的大小调整为RoI大小,并使用阈值0.5将其二值化。
第二段:请注意,由于我们仅在前100个检测框中计算掩码,Mask R-CNN将边缘运行时间添加到其对应
的Faster R-CNN版本(例如,相对约20%)。
Mask-RCNN涉及到的知识点(一)视觉识别
任务基础
一、视觉识别任务
Mask-RCNN涉及到的知识点(二)图像分类
的基础
图像分类:
剩余126页未读,继续阅读
LetsonH
- 粉丝: 699
- 资源: 36
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
- 3
- 4
- 5
- 6
前往页