DETRs Beat YOLOs on Real-time Object Detection组会汇报
DETRs Beat YOLOs on Real-time Object Detection是一篇探讨如何优化基于Transformer的实时目标检测器的研究。DETR(DEtection TRansformer)是一种端到端的目标检测框架,它摒弃了传统的区域建议网络(RPN)和非极大值抑制(NMS)等后处理步骤,但在实时性能上受到了高计算成本的限制。文章提出了RT-DETR(Real-time DETR),通过一系列优化策略,不仅在准确性上超越了现有的实时检测器,如YOLO系列,而且在速度上也有所提升,且无需后处理步骤。 RT-DETR的结构包括一个主干网络、一个混合编码器和一个带有辅助预测头的Transformer解码器。主干网络的最后三个阶段的特征图被用作编码器输入,混合编码器通过尺度内交互(AIFI)和跨尺度融合(CCFM)来处理多尺度特征。IoU感知的Query Selection方法从编码器输出中选择固定数量的特征作为解码器的对象查询。解码器生成检测框和置信度分数。 在优化编码器的过程中,研究者设计了一系列变体,通过解耦多尺度特征交互并分步骤进行,减少了计算冗余。从DINO-R50的多尺度Transformer编码器开始作为基线,然后逐步添加或改进不同的编码器结构,例如单尺度Transformer编码器(B)、跨尺度特征融合(C)、尺度内交互与跨尺度融合的解耦(D)以及进一步优化的AIFI和CCFM(E)。这些改进在提高模型精度的同时,显著降低了计算成本。 IoU-aware Query Selection解决了DETR中基于分类分数选择对象查询的问题。由于分类分数和IoU分数之间的不一致性,可能导致选择分类得分高但IoU得分低的框。通过让模型在训练期间为高IoU特征产生高分类分数,确保所选特征的预测框同时具有高分类分数和高IoU分数,从而提高了检测性能。 实验结果显示,RT-DETR在AP(平均精度)和帧率(FPS)上都优于同等规模的YOLO检测器。例如,RT-DETR-L达到53.0%的AP和114 FPS,RT-DETR-X达到54.8%的AP和74 FPS,而RT-DETR-R50和RT-DETR-R101分别在速度和精度上超越了现有端到端检测器。 这篇研究证明了DETR结构在经过优化后可以在实时目标检测任务中战胜YOLO,提供了更高效、准确且端到端的解决方案。这为未来Transformer在计算机视觉领域的应用开辟了新的可能。
- 粉丝: 2
- 资源: 13
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助