没有合适的资源?快使用搜索试试~ 我知道了~
DERT:论文详细翻译
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 23 浏览量
2023-08-15
20:48:49
上传
评论 1
收藏 5.43MB PDF 举报
温馨提示
试读
16页
DERT:论文详细翻译
资源推荐
资源详情
资源评论
@[toc]
摘要
https://arxiv.org/pdf/2005.12872.pdf
本文提出一种新方法,将目标检测视为直接的集合预测问题。该方法简化了检测管道,有效地消除了对
许多手工设计组件的需要,如非最大抑制程序或锚点生成,这些组件显式编码了我们关于任务的先验知
识。新框架称为检测TRansformer或DETR,其主要成分是基于集合的全局损失,通过二分图匹配强制进
行独特的预测,以及TRansformer编码器-解码器架构。给定一个固定的小集合的学习对象查询,DETR
对对象和全局图像上下文的关系进行推理,以直接并行输出最终的预测集。与许多其他现代检测器不
同,新模型在概念上很简单,不需要专门的库。在具有挑战性的COCO目标检测数据集上,DETR展示了
与完善的、高度优化的Faster RCNN基线相当的准确性和运行时间性能。此外,DETR易于推广,以统一
的方式产生全景分割。实验表明,它明显优于有竞争力的基线。训练代码和预训练模型可以在https://git
hub.com/facebookresearch/detr上找到。
1、简介
目标检测的目标是预测每个感兴趣物体的一组边界框和类别标签。现代的检测器通过在大量的提议集合
[37,5]、锚点[23]或窗口中心[53,46]上定义代理回归和分类问题,以间接的方式解决这一集合预测任务。
它们的性能受到以下因素的显著影响:瓦解近似重复预测的后处理步骤、锚集的设计以及将目标框分配给
锚[52]的启发式方法。为简化这些管道,本文提出一种直接集预测方法来绕过代理任务。这种端到端哲
学在复杂的结构化预测任务(如机器翻译或语音识别)中取得了重大进展,但在目标检测方面还没有:以前
的尝试[43,16,4,39]要么添加了其他形式的先验知识,要么没有被证明在具有挑战性的基准上与强大的基
线具有竞争力。本文旨在弥合这一差距。
通过将目标检测视为直接的集合预测问题,简化了训练管道。采用基于transformer的编码器-解码器架
构[47],这是一种流行的序列预测架构。transformer的自注意力机制显式地对序列中元素之间的所有成
对交互进行了建模,使这些架构特别适合集合预测的特定约束,如删除重复的预测。
我们的检测TRansformer (DETR,见图1)一次预测所有对象,并使用一组损失函数进行端到端训练,该
函数在预测对象和真实对象之间执行二部匹配。DETR通过删除多个手工设计的组件来简化检测流程,这
些组件编码先验知识,如空间锚定或非最大抑制。与大多数现有的检测方法不同,DETR不需要任何自定
义层,因此可以在包含标准CNN和Transformer类的任何框架中轻松复制。1 .
与之前大多数直接集合预测工作相比,DETR的主要特征是将二部匹配损失和Transformer与(非自回归)
并行解码结合在一起[29,12,10,8]。相比之下,之前的工作主要集中在rnn的自回归解码
[43,41,30,36,42]。我们的匹配损失函数唯一地将预测分配给一个基本真值对象,并且对预测对象的排列
是不变的,因此我们可以并行地发射它们。
我们在最流行的目标检测数据集COCO[24]上评估了DETR,对比了非常有竞争力的Faster R-CNN基线
[37]。更快的RCNN经历了许多设计迭代,其性能自最初发布以来有了很大的提高。我们的实验表明,我
们的新模型达到了相当的性能。更准确地说,DETR在大型对象上表现出明显更好的性能,这可能是由
Transformer的非局部计算实现的。然而,它在小对象上获得较低的性能。我们希望未来的工作能够像
FPN[22]的发展为Faster R-CNN所做的那样,在这方面进行改进。
DETR的训练设置在许多方面与标准目标检测器不同。新模型需要超长的训练计划,并且受益于
Transformer的辅助解码损耗。我们将彻底探讨哪些组件对演示的性能至关重要。
DETR的设计特质很容易扩展到更复杂的任务。在我们的实验中,我们证明了在预训练的DETR之上训练
的简单分割头在全景分割上的表现优于竞争基线[19],这是一项具有挑战性的像素级识别任务,最近得
到了普及。
2、相关工作
本文工作建立在几个领域的之前工作的基础上:用于集合预测的二分匹配损失,基于transformer的编码
器-解码器架构,并行解码和目标检测方法。
2.1、集合预测
目前还没有一个典型的深度学习模型可以直接预测集合。基本的集合预测任务是多标签分类(参见例如,
[40,33]有关计算机视觉背景下的参考资料),对于这些问题,“一对其余”的基线方法不适用于元素之间存
在基本结构(即几乎相同的框)的检测等问题。这些任务的第一个困难是避免近乎重复的工作。目前大多数
检测器使用诸如非极大值抑制等后处理来解决这个问题,但直接集合预测是后处理无关的。它们需要全
局推理方案,对所有预测元素之间的交互进行建模,以避免冗余。对于固定大小的集合预测,密集全连
接网络[9]足够了,但代价很高。一种通用的方法是使用自回归序列模型,如循环神经网络[48]。在所有
情况下,损失函数都应该通过预测的排列保持不变。通常的解决方案是在匈牙利算法[20]的基础上设计
一个损失函数,以找到真实值和预测值之间的二分匹配。这确保了置换不变性,并确保每个目标元素都
有唯一的匹配。我们遵循二分匹配损失方法。然而,与之前的大多数工作相比,本文放弃了自回归模
型,使用transformer进行并行解码,我们将在下面描述。
2.2、Transformer与并行解码
Transformer是由Vaswani等人[47]提出的,作为一种新的基于注意力的机器翻译构建块。注意机制[2]
是神经网络层,它从整个输入序列中聚集信息。Transformer引入了自注意力层,它与非局部神经网络
[49]类似,扫描序列的每个元素,并通过聚合整个序列的信息来更新它。基于注意力的模型的主要优点
之一是其全局计算和完美的记忆,这使得它比RNN更适合于长序列。在自然语言处理、语音处理和计算
机视觉的许多问题上,Transformer正在取代rnn[8,27,45,34,31]。
Transformer首先用于自回归模型,遵循早期的序列到序列模型[44],一个接一个地生成输出令牌。然
而,过高的推理成本(与输出长度成正比,难以批量处理)导致并行序列生成的发展,在音频[29]、机器翻
译[12,10]、词表示学习[8]以及最近的语音识别[6]等领域。我们还结合了Transformer和并行解码,以便
在计算成本和执行集合预测所需的全局计算能力之间进行适当的权衡。
2.3、目标检测
大多数现代目标检测方法都是根据最初的猜测做出预测的。两阶段检测器[37,5]预测方框w.r.t.提议,而
单阶段方法预测w.r.t.锚点[23]或可能的对象中心网格[53,46]。最近的研究[52]表明,这些系统的最终性
能在很大程度上取决于这些初始猜测的确切设置方式。在我们的模型中,我们能够消除这种手工制作的
过程,并通过使用输入图像的绝对框预测而不是锚点直接预测检测集来简化检测过程。
基于集合的损失。一些目标检测器[9,25,35]使用了二部匹配损失。然而,在这些早期的深度学习模型
中,不同预测之间的关系仅用卷积层或全连接层来建模,手工设计的NMS后处理可以提高它们的性能。
最近的检测器[37,23,53]在基础真值和预测值之间使用非唯一分配规则以及NMS。
可学习NMS方法[16,4]和关系网络[17]明确地用注意力对不同预测之间的关系进行建模。使用直接集损
失,它们不需要任何后处理步骤。然而,这些方法使用额外的手工制作的上下文特征,如提案箱坐标来
有效地建模检测之间的关系,同时我们寻找减少模型中编码的先验知识的解决方案。
循环探测器。与我们的方法最接近的是目标检测[43]和实例分割[41,30,36,42]的端到端集合预测。与我
们类似,他们使用基于CNN激活的编码器-解码器架构的双向匹配损失来直接生成一组边界框。然而,这
些方法仅在小数据集上进行了评估,而不是根据现代基线进行评估。特别是,它们基于自回归模型(更准
确地说是rnn),因此它们不利用最近的并行解码Transformer。
3、DETR模型
对于检测中的直接集预测来说,有两个要素是必不可少的:(1)集预测损失,它迫使预测值和真实值之间的
唯一匹配;(2)预测(单次)一组对象并为它们之间的关系建模的架构。我们在图2中详细描述了我们的体系结
构。
3.1、目标检测集合预测损失
在通过解码器的单次传递中,DETR推断出固定大小的N个预测集合,其中N被设置为明显大于图像中典
型对象的数量。训练的主要困难之一是根据真实情况对预测对象(类别、位置、大小)进行评分。我们的损
失在预测对象和真实对象之间产生最优的二部匹配,然后优化对象特定的(边界框)损失。
让我们用y表示对象的基础真集,用 表示N个预测集。假设N大于图像中物体的数量,我们
也将y视为一个大小为N的集合,中间填充有 (无物体)。为了找到这两个集合之间的二部匹配,我们寻
找代价最小的N个元素 的排列:
其中 是基础真值 与索引为 的预测之间的成对匹配代价。根据先前的工作(例如
[43]),匈牙利算法有效地计算了这种最优分配。
匹配成本既考虑了类预测,也考虑了预测真值框与真实真值框的相似性。地面真值集的每个元素i可以看
作 ,其中 为目标类标号(可以是∅), 是定义地面真框中心坐标及其相对于图像大
小的高度和宽度的向量。对于指数为 的预测,我们定义 类的概率为 ,预测框为 。我
们用这些符号定义 为 。
剩余15页未读,继续阅读
资源评论
- 星云雨沫2023-09-30这个资源对我启发很大,受益匪浅,学到了很多,谢谢分享~
AI浩
- 粉丝: 14w+
- 资源: 216
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功