• Localization-Distillation-for-Dense-Object-Detection

    知识蒸馏(KD)在目标检测中学习紧凑模型方面的强大能力。以往的目标检测KD方法主要集中在模仿模仿区域内的深度特征,而不是模拟分类logit,因为它在提取定位信息方面效率低下,而且改进微不足道。本文通过重构定位知识蒸馏过程,提出了一种新的定位蒸馏(LD)方法,该方法可以有效地将定位知识从教师传递给学生。此外,<u>**我们还启发式地引入了有价值的定位区域的概念,可以帮助选择性地提取特定区域的语义和定位知识。结合这两个新组件,我们首次证明了logit模拟可以优于特征模仿,而定位知识蒸馏在提取对象检测器方面比语义知识更重要、更有效。**</u>我们的蒸馏方案简单而有效,可以很容易地应用于不同的密集物体探测器。实验表明,我们的LD可以在COCO基准测试中将GFocal-ResNet-50的AP分数从1.40提高到1.42,而不会牺牲推理速度。我们的源代码和预训练模型可在 https://github.com/HikariTJU/LD 公开获得。

    0
    106
    2.07MB
    2023-02-05
    0
  • Scale-Equivalent-Distillation-for-Semi-Supervised-Object-Detecti

    最近的半监督目标检测(SS-OD)方法主要基于自我训练,即通过教师模型在未标记的数据上生成硬伪标签作为监督信号。尽管他们取得了一定的成功,但半监督学习中有限的标记数据扩大了目标检测的挑战。我们通过实证实验结果分析了这些方法遇到的挑战。我们发现大量的假阴性样本和较差的定位精度缺乏考虑。此外,物体大小的巨大差异和类不平衡(即背景和物体之间的极端比例)阻碍了现有技术的性能。此外,我们通过引入一种新颖的方法,即<u>**尺度等效蒸馏(SED)来克服这些挑战,这是一种简单而有效的端到端知识蒸馏框架,可应对较大的对象大小差异和类不平衡。**</u>与之前的作品相比,SED有几个吸引人的好处。(1) SED 强加一致性正则化来处理大规模方差问题。(2)SED缓解了假阴性样本的噪声问题和较差的定位精度。(3)重新加权策略可以隐式筛选未标注数据的潜在前景区域,以减少类失衡的影响。广泛的实验表明,SED在不同数据集上的表现始终优于最近最先进的方法,并具有显着的利润。例如,当在MS-COCO上使用10%和5%的标记数据时,它比监督对应物高出10 mAP以上。

    0
    100
    9.31MB
    2023-02-03
    0
  • FedMMD-Heterogenous-Federated-Learning-based-on-Multi-teacher

    联邦蒸馏是联邦学习中的一种新的算法范式,使客户端能够训练不同的网络架构。在联邦蒸馏中,学生可以通过提取客户端对公共服务器数据的平均预测来学习他人的信息,而不会牺牲他们的个人数据隐私。然而,仅使用平均软标签作为所有学生的老师的方法会受到客户端草案的影响,尤其是当本地数据是异构时。软标签是模型之间的平均分类分数。在本文中,我们提出了一个新的框架FedMMD(基于多教师和多特征蒸馏的联邦学习),该框架对客户端之间的不同数据分布具有鲁棒性。FedMMD扩展了FD训练程序中的聚集阶段和蒸馏阶段。与在所有学生中共享同一教师的方法相反,FedMMD 为每个需要进行多次独立蒸馏的学生分配不同的教师。由于每个模型都可以单独视为教师,FedMMD解决了共享教师仅具有平均性能由平均软标签引起的问题。同时,在每次蒸馏中,FedMMD没有使用模型在公共数据上的平均软标签作为教师,而是引入了中间表示和软标签的组合作为蒸馏目标,以了解教师的更多信息细节。我们在两个公共数据集(CIFAR10和MINIST)上的广泛实验证明了所提出的方法的性能。

    0
    187
    2.28MB
    2023-02-01
    23
  • Augmenting Knowledge Distillation with Peer-to-Peer Mutual Learn

    知识蒸馏(KD)是一种有效的模型压缩技术,是教授紧凑的学生网络来模仿复杂且训练有素的教师网络的行为。相比之下,相互学习(ML)提供了一种替代策略,即使没有强大但静态的教师网络,也可以从共享知识中使多个简单的学生网络受益。在这些发现的激励下,我们提出了一个单教师、多学生的框架,该框架利用 KD 和 ML 来实现更好的表现。此外,我们还利用在线蒸馏策略同时培训教师和学生。为了评估所提出的方法的性能,我们使用三种不同版本的师生网络对基准生物医学分类(MSI与MSS)和目标检测(息肉检测)任务进行了广泛的实验。以提议的方式训练的学生网络集合比单独使用 KD 或 ML 训练的学生集合取得了更好的结果,从而确立了通过学生之间的点对点学习增强教师向学生的知识转移的好处。

    0
    84
    2.77MB
    2023-01-28
    6
  • Multi-Stage Model Compression using Teacher Assistant and Distil

    大型神经网络在各种应用中都表现出高性能,但是,它们不适合智能手机等小型设备。因此,需要实现易于部署在小型设备中并具有高性能的小型网络。解决这个问题的方法之一是蒸馏,它可以通过从大型高性能教师模型中转移知识来获得具有高性能的小型神经网络。但是,如果教师模型和学生模型之间的参数数量存在较大差异,则蒸馏可能无法正常工作。在本文中,我们使用教师助理(TA)模型,该模型在教师模型和学生模型之间的层数中处于中间位置,以执行隐藏层和输出层的多步压缩,这是一种称为基于提示的训练的技术。首先,我们通过使用教师模型并针对隐藏层和输出层进行蒸馏来优化 TA 模型。然后,使用 TA 模型作为老师,我们对学生模型上的隐藏层和输出层执行相同的提炼。通过这种方式,我们通过减小模型的大小,同时逐步增加层的深度来提高学生模型的性能。实验表明,所提方法能够将简单的CNN模型压缩到参数比原始神经网络约1/7的大小,同时保持测试数据集相同的分类精度。在使用瓶颈架构的ResNet的学生模型中,所提出的方法优于教师模型,教师模型的参数数量大约是所提模型的8倍。此外,与现有研究相比,所提出的方法在学生模型中取得了最佳性能。

    0
    57
    1.21MB
    2023-01-20
    7
  • Structured Attention Knowledge Distillation for Lightweight Netw

    知识蒸馏是通过设计的损失函数将教师网络学到的有效知识转移到学生网络中,帮助学生网络以更低的计算成本获得更好的性能。但是,当学生网络和教师网络在结构和计算量上存在很大差异时,以前的知识蒸馏方法很难有效提高学生网络性能。为了改善这种情况,本文提出了轻量级网络的结构化注意力蒸馏。结构化注意力蒸馏对模型中的特征进行通道分组,通过细化空间注意力图,帮助学生网络学习教师网络的特征提取能力。我们提出的方法是在CIFAR100和大规模人脸识别验证集(LFW,CFP-FP,Age-DB)上进行评估的。与其他蒸馏方法相比,我们提出的方法在CIFAR100和人脸识别验证集上获得了更好的精度。

    0
    137
    3.94MB
    2023-01-17
    10
  • Self-Distillation: Towards Efficient and Compact Neural Networks

    【论文速递】TPAMI2022 - 自蒸馏:迈向高效紧凑的神经网络 在过去的几年里,深度神经网络取得了显著的成就。然而,神经网络精度的突破总是伴随着计算和参数的爆炸式增长,这导致了模型部署的严重限制。在本文中,我们提出了一种名为自蒸馏的新型知识蒸馏技术来解决这个问题。自蒸馏在神经网络的不同深度附加了几个注意力模块和浅层分类器,并将知识从最深的分类器提炼到较浅的分类器。与传统的知识蒸馏方法不同,教师模型的知识转移到另一个学生模型中,自我蒸馏可以被视为同一模型中的知识转移 - 从深层到浅层。此外,自蒸馏中的附加分类器允许神经网络以动态方式工作,从而导致更高的加速度。实验表明,自蒸馏在各种神经网络和数据集上具有一致且显著的有效性。平均而言,在CIFAR100和ImageNet上观察到3.49%和2.32%的精度提升。此外,实验表明,自蒸馏可以与其他模型压缩方法相结合,包括知识蒸馏、修剪和轻量级模型设计。

    0
    271
    2.87MB
    2023-01-15
    0
  • 笔耕不辍

    累计1年每年原创文章数量>=20篇
  • 创作能手

    授予每个自然周发布4篇到6篇原创IT博文的用户
  • 新秀勋章

    用户首次发布原创文章,审核通过后即可获得
关注 私信
上传资源赚积分or赚钱