Focal and Global Knowledge Distillation for Detectors(1).pptx
Focal and Global Knowledge Distillation for Detectors 目标检测中,知识蒸馏已成功地应用于图像分类,但由于物体检测的复杂性,大多数知识蒸馏方法都失败了。本文指出,在物体检测中,教师和学生的特征在不同的领域有很大的差异,特别是在前景和背景上。如果我们平均地提取它们,特征图之间的不均匀差异将会对蒸馏产生负面影响。 为了解决该问题,我们提出了焦点蒸馏和全局蒸馏(FGD)。焦点蒸馏将前景和背景分开,迫使学生关注教师的重要像素和通道。全局蒸馏重建了不同像素之间的关系,并将其从教师转移到学生身上,补偿了焦蒸馏中全局信息的缺失。 知识蒸馏是使用 Teacher-Student 模型,其中 teacher 是“知识”的输出者,student 是“知识”的接受者。知识蒸馏的过程分为两个阶段:原始模型训练和精简模型训练。在原始模型训练中,我们训练了“Teacher 模型”,它的特点是模型相对复杂,也可以由多个分别训练的模型集成而成。在精简模型训练中,我们训练了“Student 模型”,它是参数量较小、模型结构相对简单的单模型。 我们的方法对目标检测性能产生了显著的影响。我们通过 FGD 实现了最先进的目标检测性能。我们的贡献包括: 1. 我们提出,教师和学生关注的像素和通道是相当不同的。如果我们提取像素和通道而不区分它们,它将只有一个微不足道的改进。 2. 我们提出了局部和全局蒸馏,这使学生不仅关注教师的关键像素和通道,而且还了解像素之间的关系。 在目标检测中,前背景不平衡问题是一个重要的问题,这个问题同样影响着知识蒸馏。我们首先对二者的特征图进行了可视化,发现教师与学生均存在较大的差异。在空间注意力上,二者在前景中的差异较大,在背景中的差异较小,这会给蒸馏中的学生带来不同的学习难度。 为了进一步探索前背景对于知识蒸馏的影响,我们分离出前背景进行了蒸馏实验,全图一起蒸馏会导致蒸馏性能的下降,将前景与背景分开学生能够获得更好的表现。 我们提出了焦点蒸馏 Focal Distillation:分离前背景,并利用教师的空间与通道注意力作为权重,指导学生进行知识蒸馏,计算重点蒸馏损失。我们还提出了 FGD,它包括焦蒸馏和全局蒸馏。 FGD 可以应用于各种检测器,我们通过 FGD 实现了最先进的目标检测性能。我们的方法可以使学生探测器获得更好的性能,并且可以应用于各种检测器中。
剩余15页未读,继续阅读
- 粉丝: 4
- 资源: 1
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
评论0