SSD论文翻译(SSD: Single Shot MultiBox Detector)

所需积分/C币:21 2019-03-06 12:59:16 1.63MB PDF
354
收藏 收藏
举报

本资源是本人翻译的Single Shot MultiBox Detector的一文,出自于2016年,主要内容是完成行人重识别的网络构建,不仅提高了识别准确率,并且提高了是别的速度。其中,作者的一些设计思路很有启发。
框与 ground truth box匹配。例如,我们已经将两个默认框与猫匹配,一个与狗匹配, 将其视为正数,其余为负数。模型损失是定位损失〔例如,平滑L1[6])和置信度损失(例 如 Softmax)之间的加权和。(框架实现目标定位的原理介绍) 2 single shot detectors(SSD) 本节描述了我们提出的用于检测的SSD框架(第2.1节)和相关的训练方法 (第2.2节)。之后,Sect3介绍数据集特定的模型细节和实验结果。 2.1模型 SSD方法基于前馈卷积网络,该网络生成固定大小的边界框集合以及在该框 中存在对象类实例的分数,随后是非极大值抑制步骤以产生最终检测。早期的网 络层基于用于高质量图像分类的标准体系结构(在任何分类层之前被截断),我 们称之为基础网络[1]。然后,我们将辅助结构添加到网络中,以生成具有以下 主要功能的检测: Extra Feature Layers VGG-16 through Pools layer Classer: Canv: 3x3x(clAsses+4)) Claster: Con. 3x3 Classes+4J) 4.maP 目59FPs Con: 3xxx Classose4) 6oa3EEx至+82 Conr 3x3x1024. fx1x104 CoN 1xix2 Cow 4xif78 Co ixia 28coN1x128 Corm: 3x3x512-52 Com: 33x3x256-52 Con 3x3c256-s1 Corry 3r3056-s1 YOLo Customized Architecture D/s63.4mAP 45FPS Fuly Cuirndud Fully Cun null 图2两种 single shot detectors模型的比较:SSD和YoLo[5]。我们的SS模型在基础网 络末端添加了几个要素图层,可以预测不同比例和宽高比的默认框的偏移量及其相关信任。 具有300×300输入尺寸的SSD在V002007测试中的精度明显优于其448×448Y0L0同类产 品,同时还提高了速度。(网络结构介绍 用于检测的多尺度特征图。我们将卷积特征层添加到截断的基础网络的末尾。 这些层的尺寸逐渐减小,并允许在多个尺度上预测检测。用于预测检测的卷积模 型对于每个特征层是不同的(参见在单一尺度特征图上操作的0 verteat[4]和 YOLO[5])。 用于检测的卷积预测因子。每个添加的特征层(或者可选地来自基础网络的 现有特征层)可以使川一组卷积滤波器产生一组定的检测预测。这些在图2中 的SSD网络架构之上有指示。对于具有p个通道的大小为m×n的特征层,用于 预测潜在检测的参数的基本元素是3×3×p小内核,其产生类别的分数或相对于 默认框的形状偏移。坐标。在应用内核的m×n个位置中的每一个处,它产生输 出值。边界框偏栘输岀值是相对于每个特征地图位置的默认框位置测量的(参见 YOL0[5]的休系结构,在此步骤中使用中间完全连接层而不是卷积滤波器) 默认框和宽高比。我们将一组默认边界框与每个要素图单元关联,以用于网 络顶部的多个要素图。默认框以卷积方式平铺特征图,以便每个框相对于其对应 单元的位置是固定的。在每个要素图单元格中,我们预测相对于单元格中默认框 形状的偏移量,以及指示每个框中是否存在类实例的每个类别得分。具休来说, 对于给定位置的k个中的每个框,我们计算c类分数和相对于原始默认框形状的 4个偏移。这导致总共(c+4)k在要素图中的每个位置周围应用的滤波器,产生 (c+4)km输出m×n特征图。有关默汏框的说明,请参阅图1。我们的默认框 类似于 Faster r-cnn[2]中使用的锚框,但是我们将它们应用于不同分辨率的几 个特征图。允许在多个要素图中使用不同的默认框形状,可以有效地离散可能的 输出框形状的空间。 22训练 训练SSD和训练使用区域建议的典型探测器之冋的关键区别在于,需要将 ground truth box信息分配给固定探测器输出组中的特定输出。YOLO[5]和 Faster r-cnn[2]和 Multibox[刁]的区域建议阶段也需要一些模型的训练。一旦 确定了该分配,就公端到端地应用损失函数和反向传播。训练还涉及选择一组默 认框和检测尺庋以及硬负面挖掘和数据増强策略 匹配策略。在训练期间,我们需要确定哪些默认框对应于 ground truth detection并且相应地训练网络。对于每个 ground truth box,我们从默认框中 选择,这些框在位置,宽高比和比例上有所不同。我们首先将每个 ground truth box与具有最佳 Jaccard重叠的默认框匹配(如 Multibox[7中所述)。与 Multibox不同,我们然后将默认框与 Jaccard重叠高于阈值(0.5)的任何 ground truth匹配。这简化了学习问题,允许网络预测多个重叠默认框的高分,而不是 要求它仅选择具有最大重叠的框。 训练目的。所述SSD训练目标是从 Multibox目标中衍生的[7,8],但扩展到 处理多个对象类别。设x={1,0是将第立个默认框与p类别的第j个 ground truth box匹配的指示符。在上面的匹配策略中,我们可以得到∑2x≥1。总 体客观损失函数是1 ocalization loss(1oc)和置信度损失(conf)的加权和: L(x, C, l, g)=(Lconr(,c)+aLoc (x,l, 9) 其中N是匹配的默认框的数量,并且定位损失是预测框(1)和 ground truth box(g)参数之间的平滑L1损失[6]。类似于 Faster r-cnn[2],我们回归到边 界框的中心及其宽度和高度的偏移。我们的置信度损失是多类置信度(c)的 softmax损失,并且通过交义验证将权重项α设置为1。 选择默认框的比例和宽高比。为了处理不同尺度的对象,一些方法[4,9]建 议在处理不同大小的图像,结果事后结合。然而,通过利用来自单个网络中的若 干不同层的特征图进行预测,我们可以模仿相同的效果,同时还可以跨所有对象 八度进行参数化。以前的工作[10,11]表明,使用特征地图从较低层可以提高语 义分割质量,因为较低层捕获输入对象的更精细的细节。同样地,[2]认为添λ 从特征图汇集的全局上下文可以帮助平滑分割结果。在这些方法的推动下,我们 使用下部和上部特征图进行检测。图1显示」框架中使用的两个示例性特征映射 (8×8和4×4)。实际上,我们可以使用更多的计算开销。 我们设计了默认框的平铺,以便特定的特征图学习响应特定的对象尺度。假 设我们想要使用m个特征映射进行预测。每个要素图的默认框的比例计算如下 (k-1),k∈[1,m](2) m1-1 其中smm是0.2和smax为0.9,意味着最低层的刻度为0.2,最高层的刻度 为0.9,其间的所有层均规则间隔。我们对默认框施加不同的宽高比,并用 ar∈{1,23,,}表示它们。我们可以计算每个默认框的宽度(w=skVa)和高度 〔hg=Sk/Var)。对于宽高比为1,我们还添加了一个默认框的比例为(k √skSk+1),每个要素图位置产生6个默认框。我们将每个默认框的中心设冒为 i+0.5j+0.5 Iful lfkl ),共中1是第k个正方形特征映射的大小,1玩D在实践中 还可以设计默认框的分布以最佳地适合特定数据集。 通过结合来自许多特征图的所有位置的具有不同比例和纵横比的所有默认 框的预测,我们具有多种预测,涵盖各种输入对象大小和形状。例如,在图1中, 狗匹配4×4特征图中的默认框,但不匹配8×8特征图中的任何默认框。这是因 为那些盒子具有不同的尺度并且与狗的框不匹配,因此在训练期间被认为是负值。 硬负面挖掘。在匹配步骤之后,大多数默认框都是负值,尤其是当可能的默 认框的数量很大时。这引入了正面和负面训练示例之间的显著不平衡。我们不是 使用所有的负面例子,而是使用每个默认框中最高的置信度损失对它们进行排序, 然后选择顶部的那些,以便负数和优势之间的比率最多为3:1。我们发现这可以 带来更快的优化和更稳定的训练。 数据扩充。为了使模型对各种输入对象大小和形状更加健壮,每个训练图像 由以下选项之一随机采样 使用整个原始输入图像。 对贴片进行采样,使最小 Jaccard与对象重叠为0.1,0.3,0.5,0.7或0.9。 随机抽样补丁。 每个采样贴片的八寸为原始图像人寸的[0.1,1],纵横比介于1/2和2两者 之间。如果它的中心位于采样补丁中,我们保留地面实况框的重叠部分。在上述 采样步骤之后,除了应用类似于[13]中描述的一些光度尺度失真之外,每个完整 的贴片被调整人小到固定人小并且以0.5的概率水平翻转。 3实验结果 基础网络。我们的实验都是基于VG16[14],它是在 ILSVRC CLS-0C数据 集上预先训练的[15]。与 Deeplab- Largefov[16]类似,我们将『c6和rc7转换 为卷积层,从fc6和fc7转换子样本参数,将pool5从2×2-s2改为3×3-s1, 并使用 atrous算法填充“漏泂””。我们删除所有的 dropout图层和fec8图层 我们使用SGD对初始学习模型进行微调,初始学习率为10-3,动量为0.9,动态 哀减为0.0005,批量大小为32。每个数据集的学习率哀减策略略有不同,稍后 我们将详细描述。完整的培训和测试代码建立在 Caffe[7]上,并在 htps:/github.com/weiliu89/caffe/tree/ssd上开源。 3.1 PASCAL VOC2007 在这个数据集上,我们在VOC2007测试(4952图像)上与 Fast r-CNNL6」和 Faster R-CN[2]进行比较。所有方法都使用相同的预先训练的VGG16网络。 图2显示了SSD300模型的架构细节。我们使用conv4_3,conv7(rc7) conv82,conv92,conv102,和conv11_2预测位置和置信度[2]。我们初始化 为所有与“ Xavier”方法L18」新添加的卷积层的参数。对于conv43,conv102 和conv112,我们只在每个要素图位置关联亻个默认框-省略1/3和3的纵横 比。对于所冇其他图层,我们按照Sect2.2中所述放置6个默认框。因为,正 如[12]中指出的那样,conv43与其他层相比具有不同的特征尺度,我们使用[12 中引入的L2归一化技术将特征图中每个位置的特征范数缩放到20并在反向传 播期间学习尺度。我们使用10-3学习率为40k迭代,然后我们继续用10-4和10-5 训练l0k次迭代。在对VoC2007 trainval进行训练时,表1显示我们的低分辨 率SSD300型号已经比 Fast R-CNN更精确。当我们在更大的512×512输入图像 上训练SSD时,它甚至更准确,超过 Faster r-CN1.7%mAP。如果我们用更多 (即07+12)数据训练、SSD,我们观察到SSD300已经比 Fasl r-CN好0.9%, SSD512好3.6%。如果我们采用 Coco trainval33k训练的模型,如Sect3.4并 使用SSυ512对07+12数据集进行微调,我们获得了最佳结果:81.5%mAP。 Method mAP aero bike bird boat bottle bus car cat chair cow table dog horse mbike person plant sheep sofa train ty 6974.578.36925323667378.282040772767.979679.273.069030165470275868 Fas07+1270077078169359.438.381678.586,742.878868984782.076.669931870.174880470.4 Fastcr20769970080.670.157349978280.482,052.275.367.280.379.875076339168.367.381,1676 Faster四207+1273.276570070965.552183.84786452.081965784.88167576738873673983072.6 aster(21 07+1278884382.077768965788188488963686370885.987680.1823536804758866789 SSDS0O 68073477.564159.038.975280.878.546067.869.276682117.072541.264269.1780685 sso01217417468027262471829834861544785739844845824761486743750843740 SSD90007+12Co79.680986379076257687.388288660.58547678758.284.581455081.981.585978.9 SSD120771.675181469,860.846.382684784.148.575067482383.979447664.969969178.171.8 SSD5127+1276.882484.778473.853.286.,287.586.057.883.170.284985.283.979.750.37973.982.575.3 SS2(07+12o586987.582,0755648.288789365.2883174487.188985.984557684680787.1817 表1. PASCAL V0C2007测试检测结果。 Fast r-cnn和 Faster R-cnn都使用最小 尺寸为600的输入图像。两种SSD型号具有完全相同的设置,除了它们具有不同 的输入尺寸(300×300与512×512)。很明显,更大的输入大小可以带来更好 的结果,而更多的数据总是有帮助的。数据:“07”:VOC2007 traina1,“07+12”: VOC2007和VOC2012 rainfall的联合。“07+12+0C0”:首先在 COCOtrainval35k 上训练,然后在07+12微调 为了更详细地了解我们的两个SSD型号的性能,我们使用了L19中的检测分 析工具。图3显小SSD可以检测高质量的各种对象类别(大白区)。其大部分自 信的检测都是正确的。召回率约为85-90%,并且在“弱”(0.1 Jaccard重叠) 标准下更高。与RCNN[20]相比,SSD具有较少的定位误差,表明SSD可以更好 地定位对象,因为它直接学习回归对象形状并对对象类别进行分类,而不是使用 两个解耦步骤。然而,SSD对类似对象类别(特别是动物)的混淆更多,部分原 因是我们共亨多个类别的位置。图4显示SSD对边界框大小非常敏感。换句话 说,它在较小的对象上比较大的对象具有更差的性能。这并不奇怪,因为这些小 物件可能甚至没有在最顶层的任何信息。增加输入尺寸(例如从300×300到 512×512)可以帮助改进检测小物体,但仍有很大的改进空间。在正确(积极) 的一面,我们可以清楚地看到,SS大型物体上执行得很好。并且它对于不同的 对象宽高比非常稳健,因为我们使用每个特征映射位置的各种宽高比的默认框。 animals vehicles furniture 100 g40 Go 20 Sim otha h BG 0.1250250.5124801250250.512480.1250.2505 total delections (x 357) total detections (x 415) total detections(x 400) animals vehicles furniture 100 Sim Sim Sim oth oth BG BG 5 5 501002004008016003200 255010020040080016003200 25501002004080016003200 total false positives total false positives total false positives 如图3所示使用19从VOC2007测试可视化动物,车辆和家具上SSD512的性 能。顶行显示由于不良定位(Lo),与类似类别(Sim),其他(Oth)或背景 BG)的混淆而正确(Cor)或误报的检测的累积分数。底行显示排名最高的误 报类型的分布 SSD300: BBox Area SSD300: Aspect Ratio 2 XSSM LXL XSS MLXL XS5M LXL XSS MLXL XSS MLXL XS5 LXL XSS MLX T MWW XIT M WW XTT MWW XTT M WW XIT M WXW XIT MWW XIT M nW ssD512BB。 T Area ap的第 oirc As2 boat 2 XSS M LXL XSS M LXL XSS M LXL XSS M LXL XSS M LXL XS5 M LXL XSSMLXI XTT MWW XTT M WW XTT MWOW XTT MWW XTT M WW XTT MWW XTT M WW 图4使用[19对不同物体特性对VoC2007测试仪的灵敏度和影响。左侧的图显 示了每个类别的BBox面积的影响,右侧的图显示了宽高比的影响 3.2模型分析 为了更好地理解SSD,我们进行了对照实验,以检查每个组件如何影响性能。 对于所有实验,除了对设置或组件的指定更改外,我们使用相同的设置和输入大 小(300×300)。 表2各种设计选择和组件对SD性能的影响。 SSD300 more data augmentation? Include {,2}box? include 13, 3 box? use atrous? VOC2007 test mAp 65571.673.7744743 表3多层的效果。 Source layers from mAP use boundary boxes?# Boxes conv_3 conv conv8-2 conv 9_2 conv 10-2 conv11-2 Yes No 74363.4 87:2 74.663.1 8764 73.868.4 8942 70.769.2 9864 64264.4 9025 62.461.0 8661 数据扩充至关重要。 Fast R-cni和 Faster r-cNN使用原始图像和水平翻转 来训练。我们使用更广泛的釆样策略,类似于YOL0[5]。表2显示,采用此抽样 策略,我们可以提高8.8%的mAP。我们不知道我们的采样策略对 Fast r-CNN和 Faster r-cnn有多人益处,但它们可能会受益更少,因为它们在分类期间使用 特征池步骤,这对于设计的对象转换相对稳健 更多默认的盒子形状更好。如Sect2.2中所,默认情况下,我们每个位置 使用6个默认框。如果我们删除具有1/3和3之间的宽高比的框,性能下降0.6% 通过删除具有1/2和2之间的宽高比的框,性能下降2.1%。使用各种默认的box 形状似乎使网络预测框的任务更容易 Atrous更快。如Sect3中所述,我们使用了 Deeplab- LargeFOVL16]之后的 二次采样VGG16的 atrous版本。如果我们使用完整的ⅤG16,保持po15具有 2×2-2而不是来自fc6和fc7的子采样参数,并添加conv53用于预测,结果 大致相同,而速度慢约20%。 不同分辨率的多个输出层更好。SSD的主要贡献是在不同的输出层上使用不 同比例的默认框。为了衡量获得的优势,我们逐步删除图层并比较结果。为了公 平比较,每次我们删除一个图层时,我们都会调整默认的框图平铺,以使桕的总 数与原始图像相同(8732)。这是通过在剩余层上堆叠更多刻度的盒了并根据需 要调整盒子的比例来完成的。我们没有详尽地优化每个设置的平铺。表3显示了 较少层的精度降低,单调下降从74.3降至62.4。当我们在一个图层上堆叠多个 刻度的框吋,许多都在图像边界上,需要小心处理。我们尝试了 Faster R-cnN[2] 中使用的策略,忽略了边界上的框。我们观察到有趣的趋势。例如,如果我们使 用非常粗略的特征映射(例如conv112(1×1)或conv102(3×3)),它会 大幅损害性能。原因可能是我们在修剪后没有足够的框来覆盖大型物体。当我们 使用主要更精细的分辨率地图时,性能会再次开始增加,因为即使在修剪后仍然 存在足够数量的大盒子。如果我们只使用con7进行预测,那么性能就是最差的, 这强化了这样的信息,即在不同层上传播不同比例的 boxes至关重要 3.3 PASCAL yOC2012 我们使用与上述基本VOC2007实验相同的设置,我们除了使用V0C2012 trainval和vOC2007 trainval和测试(21503个图像)进行训练,并测试VOC2012 测试(10991个图像)。我们训练模型的用10-3学习率进行60k迭代,然后用10-4 的学习率进行20k迭代。表4显示了我们的SSD300和SSD512型号的结果。我 们看到了与我们在oC2007测试中观察到的相同的性能趋势。我们的SSD300提 高了快速/快速RCN的准确性。通过将训练和测试图像尺寸增加到512×512, 我们比更快的RCNN准确度高4.5%。与YOL0相比,SSD显着更准确,可能是由 于使用了来自多个特征图的卷积默认框以及我们在训练期间的匹配策略。当通过 α0C培训模型进行调整时,我们的SSD512的mAP达到80.0%,比 Faster r-CN 高出4.1%。 3.4C0C0 为了进一步验证SSD框架,我们在COCO数据集上培训了SSD300和SSD512 架构。由于COC0中的物体往往小于 PASCALVOC,因此我们对所有层使用较小的 默认框。我们遵循Sect中提到的策略。2.2,但现在我们最小的默认框的比例为 0.15而不是0.2,以及conv4上默认框的比例3是0.07(例如对于300×300图 像是21个像素)。 我们使用 trainval35k[21进行训练。我们首先训练模型以10学习率进行 160k次迭代,然后以10的学习率继续40k次迭代,和以10学习率进行40k迭 代。表5显示了结果test-dev2015。与我们在 PASCALVOC数据集中观察到的类 似,SSD300在mAP@0.5和mAP@[0.5:0.95]中均优于 Fast r-cnn。SSD300与 Faster r-CNNL22」具有相似的mAP@0.5:0.95」。但是,mAP0.5更糟糕,我们 推测这是因为 Image人寸太小,这阳止了模型检测到许多小物体。但总的来说, SSD可以更准确地定位对象。通过将图像尺寸增加到512×512,我们的SSD512 在两个标准中都优于 Faster r-cnn。此外,我们的SSD512模型也优于I0N[21] 这是一种多尺度版本的 Fast r-CN,使用循环网络对上下文进行显式建模。在 图5中,我们展小了使用SSD512模型的 coco test-dev的一些检测小例。

...展开详情
试读 16P SSD论文翻译(SSD: Single Shot MultiBox Detector)
立即下载
限时抽奖 低至0.43元/次
身份认证后 购VIP低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • GitHub

  • 回归勋章

  • 分享达人

关注 私信
上传资源赚钱or赚积分
最新推荐
SSD论文翻译(SSD: Single Shot MultiBox Detector) 21积分/C币 立即下载
1/16
SSD论文翻译(SSD: Single Shot MultiBox Detector)第1页
SSD论文翻译(SSD: Single Shot MultiBox Detector)第2页
SSD论文翻译(SSD: Single Shot MultiBox Detector)第3页
SSD论文翻译(SSD: Single Shot MultiBox Detector)第4页

试读结束, 可继续读1页

21积分/C币 立即下载