一文读懂Mask-RCNN笔记（全）_maskrcnn详解资源-CSDN文库

版权申诉

5星 · 超过95%的资源 52 浏览量 2020-11-20 20:03:05 上传评论 16 收藏 49.4MB PDF 举报

资源推荐

资源详情

资源评论

Mask-RCNN大纲

-----(侯明阳)

零、Abstract

Mask-RCNN提出了一个实例分割的框架，可以在有效地检测图像中目标的同时为每一个实例产生

一个高质量分割Mask。

Mask-RCNN扩展了Faster R-CNN，通过在之前已存在的边界框回归分支上添加新的一个预测目标

Mask的分支。

一、Introduction

第一段：目标检测与语义分割发展迅速，获益于强大的基线系统框架（Faster R-CNN和FCN等），

Mask-RCNN则是实例分割的框架。

第二段：实例分割结合了目标检测和语义分割，需要正确检测图片中的所有目标，同时分割每一个实

例。Mask-RCNN目标是去分类每一个实例，使用边界框定位每一个实例，并且进行语义分割（为每一个

固定的像素分类不区分实例）。

第三段：Mask-RCNN扩展了Faster R-CNN，通过在每一个ROI上添加了一个新的预测目标Mask的分支

（是一个很小的FCN应用在每一个ROI上，以像素到像素的方式预测一个分割Mask）。同时包含之前的

分类分支和边界框回归分支。

第四段：第一：Faster R-CNN在网络的输入输出中没有设计像素到像素的对齐（表现在RoIPool上，它

对于特征提取做了粗糙的空间量化），为了修复这个错误，我们提出了RoIAlign（简单、免量化），它

完整地保留了精确的空间位置。有了更好的结果。第二：我们独立的为每一个类别预测了一个二元

Mask，没有类间竞争，并且依赖于网络的RoI分类分支的预测类别结果。（FCNs使用的是逐像素多类别

分类，结合了分割和分类，表现不佳）

第五段：Mask-RCNN在COCO数据集上的实力分割任务中表现良好

第六段：Mask-RCNN在GPU上运行良好

第七段：Mask-RCNN在COCO数据集上的人体姿态估计任务中表现良好（通过将每一个关键点作为一

个one-hot二元掩码）

二、Related Work

2.1、R-CNN

R-CNN方法是通过找到一定数量的候选区域，并独立地在每个RoI上执行卷积，来进行目标检测

的。基于R-CNN的改进，使用RoIPool在特征图上选取RoI，实现了更快的速度和更好的准确性。Faster

R-CNN通过使用RPN学习注意力机制来产生候选框。还有后续的对Faster R-CNN灵活性和鲁棒性的改

进。

2.2、Instance Segmentation

第一段：在R- CNN的有效性的推动下，目标分割的许多方法都是基于（分割建议）segment proposals

的。先前的方法依赖自下而上的分割。 DeepMask通过学习提出分割候选，然后使用Fast R-CNN分

类。在这些方法中，分割先于识别，这样做既慢又不太准确。同样，Dai等人提出了一个复杂的多阶段级

联，从候选框中预测候选分割，然后进行分类。相反，我们的方法并行进行掩码和类标签的预测，更简

单也更灵活。

第二段：Li等人的“全卷积实例分割”（FCIS）。是用全卷积得到一组位置敏感的输出通道候选。这些通

道同时处理目标分类，目标检测和掩码，这使系统速度变得更快。但FCIS在重叠实例上出现系统错误，

并产生虚假边缘（伪象）。

第三段：之前的一些实力分割方法是通过之前成功的语义分割方法改进的，使用逐像素分类的结果

（FCN的输出），去尝试将相同类别的像素裁剪到不同的实体中。

三、Mask R-CNN

Faster R-CNN为每个候选目标输出类标签和边框偏移量。Mask R-CNN添加了一个输出目标掩码的第三

个分支。但是，附加的掩码输出与类和框输出不同，需要提取对象的更精确的空间布局。我们介绍Mask

R-CNN提出的关键点，包括像素到像素对齐，这是Fast/Faster R-CNN的主要缺失。

3.1、Faster R-CNN

Faster R-CNN由两个阶段组成。第一阶段是区域提议网络（RPN），得到候选目标边界框。第二阶段，

本质上是Fast R-CNN ，使用RoIPool从每个候选框中提取特征，并进行分类和边界回归。两个阶段使用

的特征可以共享，以便更快的推理。

3.2、Mask R-CNN

第一段：Mask R-CNN采用相同的两个阶段，具有相同的第一阶段（RPN）。第二阶段，同时预测类别

和边界框偏移量，Mask R-CNN还为每个RoI输出一个二元掩码。

第二段：在训练期间，我们将在每个采样后的RoI上的多任务损失函数定义为XXX。掩码分支对于每个

RoI的输出维度为，即K个分辨率为的二元掩码，K表示类别数量。我们为每个像素应

用Sigmoid，并将定义为平均二元交叉熵损失。对于真实类别为的RoI，仅在第k个掩码上计算（其他掩

码输出不计入损失）。

第三段：我们的Mask损失允许网络为每个类独立地预测二元掩码，这样不会有类间竞争。我们依靠专用

分类分支预测用于选择输出掩码的类标签。这将解耦掩码和类别预测。这与通常将FCN 应用于像素级

Softmax和多重交叉熵损失的语义分段的做法不同。在这种情况下，掩码将在不同类别之间竞争。而我

们的方法，使用了其它方法没有的像素级的Sigmod和二元损失。我们通过实验发现，这种方法是改善目

标分割效果的关键。

3.3、Mask Representation

第一段：掩码表示输入目标的空间布局。因此，与通过全连接（fc）层不可避免地缩短输出向量的类标

签或框偏移不同，提取掩码的空间结构可以通过由卷积提供的像素到像素对齐自然地被解决。

第二段：具体来说，我们使用FCN来为每个RoI预测一个的掩码。这允许掩码分支中的每个层保持

的对象空间布局，而不会将其缩成缺少空间维度的向量表示。与以前使用fc层掩码预测的的方法不同，

我们的全卷积表示需要更少的参数，并且如实验所证明的更准确。

第三段：这种像素到像素的行为需要RoI特征，它们本身就是小特征图。为了更好地对齐，以准确地保留

完整的像素空间对应关系，我们开发出在掩模预测中发挥关键作用的以下RoIAlign层。

3.4、RoIAlign

第一段：RoIPool是从每个RoI提取小特征图的标准操作。 RoIPool首先将浮点数表示的RoI缩放到与特征

图匹配的粒度，然后将缩放后的RoI分块，最后汇总每个块覆盖的区域的特征值（通常使用最大池化）。

例如，对在连续坐标系上的计算，其中16是特征图步幅，【-】表示四舍五入。同样地，当对RoI分块时

时也执行同样的计算。这样的计算使RoI与提取的特征错位。虽然这可能不会影响分类，因为分类对小幅

度的变换具有一定的鲁棒性，但它对预测像素级精确的掩码有很大的负面影响。

第二段：为了解决这个问题，我们提出了一个RoIAlign层，可以去除RoIPool的错位，将提取的特征与输

入准确对齐。我们提出的改变很简单：我们避免计算过程中的四舍五入。我们选取分块中的4个常规的位

置，使用双线性插值来计算每个位置的精确值，并将结果汇总（使用最大或平均池化）。（我们抽取四

个常规位置，以便我们可以使用最大或平均池化。事实上，在每个分块中心取一个值（没有池化）几乎

同样有效。我们也可以为每个块采样超过四个位置，我们发现这些位置的收益递减。）

第三段：如我们在中所示，RoIAlign的改进效果明显。我们还比较了中提出的RoIWarp操作。与RoIAlign

不同，RoIWarp忽略了对齐问题，并在的实现中，有像RoIPool那样的四舍五入计算。因此，即使

RoIWarp也采用提到的双线性重采样，它与RoIPool效果差不多。这表明了对齐起到了关键的作用。

3.5、Network Architecture

第一段：为了证明我们的方法的普适性，我们构造了多种不同结构的Mask R-CNN。详细来说就是，我

们使用不同的：(i)用于整个图像上的特征提取的下层卷积网络（backbone），以及(ii)用于检测框识别

（分类和回归）和掩码预测的上层网络（head）。

第二段：我们使用”网络-深度-特征输出层”的方式命名底下层卷积网络（backbone）。我们评估了深度

为50或101层的ResNet和ResNeXt网络。使用ResNet的Faster R-CNN从第四阶段的最终卷积层提取特

征，我们称之为C4。例如，使用ResNet-50的下层网络由ResNet-50-C4表示。

第三段：我们还探讨了Lin等人最近提出的另一种更有效的下层网络（backbone），称为特征金字塔网

络（FPN）。 FPN使用具有横向连接的自顶向下架构，以从单尺度输入构建网络中的特征金字塔。使用

FPN的Faster R-CNN根据其尺度提取不同级别的金字塔的RoI特征，不过其它部分和平常的ResNet类

似。使用ResNet-FPN进行特征提取的Mask R-CNN可以在精度和速度方面获得极大的提升。

第四段：对于上层网络，我们基本遵循了以前论文中提出的架构，我们添加了一个全卷积的掩码预测分

支。具体来说，我们扩展了 ResNet和FPN中提出的Faster R-CNN的上层网络（backbone）。ResNet-

C4的上层网络包括ResNet的第五阶段（即9层的“res5”），这是计算密集型的。对于FPN，下层网已经

包含了res5，因此可以使上层网络包含更少的卷积核而变的更高效。

（上层网络架构：我们扩展了两种现有的Faster R-CNN上层网络架构，分别添加了一个掩码分

支。图中数字表示分辨率和通道数，箭头表示卷积、反卷积或全连接层（可以通过上下文推断，卷

积减小维度，反卷积增加维度。）所有的卷积都是的，除了输出层，是的。反卷积是的，步进为

2，,我们在隐藏层中使用ReLU。左图中，“res5”表示ResNet的第五阶段，简单起见，我们修改了

第一个卷积操作，使用，步长为1的RoI代替，步长为2的RoI。右图中的“”表示堆叠的4个连续的卷

积。）

3.6、Implementation Details

3.6.1、Training

第一段：如果RoI与真值框的IoU不小于0.5，则为正样本，否则为负样本。掩码损失函数仅在RoI的正样

本上定义。掩码目标是RoI及其对应的真值框之间的交集。

第二段：我们采用以图像为中心的训练。图像被缩放（较短边）到800像素。批量大小为每个GPU2个图

像，每个图像具有N个RoI采样，正负样本比例为1:3。 C4下层网络的N为64（如），FPN为

512（如）。我们使用8个GPU训练（如此有效的批量大小为16）160k次迭代，学习率为0.02，在120k

次迭代时学习率除以10。我们使用0.0001的权重衰减和0.9的动量。

第三段：RPN锚点跨越5个尺度和3个纵横比。为方便消融，RPN分开训练，不与Mask R-CNN共享特

征。本文中的，RPN和Mask R-CNN具有相同的下层网络，因此它们是可共享的。

剩余126页未读，继续阅读

评论收藏

内容反馈

版权申诉

Booyahhhhhhhhh

2021-12-30

小白一个，感觉不错，如果有有配套讲解就好了
陈嘿萌

2022-02-16

写得真TM好，推荐阅读，深入浅出，还有不少基础知识，很适合初学者，要是针对MASK-RCNN能够在详细点就好了。（当然因为第一次接触，没有RCNN等的先验知识，所以不是很明白，这是我的问题）；总体来说十分推荐，买的划算。
zxnrbl

2021-07-19

用户下载后在一定时间内未进行评价，系统默认好评。
zthdfmc2010

2021-11-10

用户下载后在一定时间内未进行评价，系统默认好评。
zhoubinlove5211

2023-07-19

总算找到了想要的资源，搞定遇到的大问题，赞赞赞！