Libra R-CNN: Towards Balanced Learning for Object Detection 作者:Jiangmiao Pang,Kai Chen, Jianping Shi,Huajun Feng, Wanli Ouyang, Dahua Lin,Zhejiang University,The Chinese University of Hong Kong ,SenseTime Research , The University of Sydney Abstract: 为了缓和训练过程的失衡造成的消极影响,我们提出了一种简单却高效的关注于平衡的训练的目标检测模型,也即Libra R-CNN。 它融合了三个新元素:IoU-balanced sampling(IoU平衡抽样),balanced feature pyramid(平衡特征金字塔),balanced L1 loss(L1平衡损失函数),分别用于缓和样本,特征,目标层面的不平衡性。因着Libra R-CNN的平衡性设计,这个算法使得检测的效果得到了较大的提升。 Libra R-CNN是一种针对目标检测任务的深度学习模型,旨在解决训练过程中常见的样本、特征和目标层面的不平衡问题。该模型由浙江大学、香港中文大学、商汤科技研究所以及悉尼大学的研究人员共同提出,其核心思想是通过引入IoU平衡抽样、平衡特征金字塔和平衡L1损失来优化目标检测的性能。 样本层面的不平衡通常表现为难易样本的不均衡,例如在训练数据中,困难样本(如边缘模糊或遮挡的对象)相对较少,而容易样本(如背景或简单对象)过多。传统的在线hard example mining (OHEM)方法虽然能有效处理难样本,但对噪声敏感且计算成本较高。Focal loss则在单阶段检测器中表现出色,但在两阶段的R-CNN中,由于大量简单负样本的存在,其效果并不理想。Libra R-CNN提出了IoU平衡抽样,根据IoU(交并比)将样本分为多个区域,以确保困难负样本的充分采样,提高训练效率。 特征层面的不平衡体现在不同层级特征的利用上。特征金字塔网络(FPN)通过自上而下的信息传递增强了低层特征的语义信息,而PANet引入了自下而上的路径来补充高层特征的几何信息。然而,这些方法仍然可能导致某些分辨率层次的信息过强或过弱。Libra R-CNN通过构建平衡特征金字塔,使得各分辨率层能从其他层获取相同级别的信息,达到特征间的平衡,提升特征的辨别能力。 目标层面的不平衡主要指损失函数的设计。传统的L1损失可能对正负样本的贡献不一致,导致训练过程中的失衡。Libra R-CNN采用平衡L1损失,以平衡正负样本的贡献,减少训练偏差。 Libra R-CNN通过这三个方面的改进,构建了一个更加平衡的训练框架,有效地提升了目标检测的准确性和鲁棒性。该模型在MS-COCO数据集上的实验结果表明,相比于现有的先进算法,无论是在单阶段还是两阶段的检测器中,Libra R-CNN都能取得显著的性能提升。此外,Libra R-CNN的代码已开源,可以在基于PyTorch的mmdetection工具箱中找到,这为研究人员和开发者提供了实现和拓展平衡学习策略的实际平台。
剩余25页未读,继续阅读
- 粉丝: 45
- 资源: 8
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 现在微信小程序能用的mqtt.min.js
- 基于MPC的非线性摆锤系统轨迹跟踪控制matlab仿真,包括程序中文注释,仿真操作步骤
- 基于MATLAB的ITS信道模型数值模拟仿真,包括程序中文注释,仿真操作步骤
- 基于Java、JavaScript、CSS的电子产品商城设计与实现源码
- 基于Vue 2的zjc项目设计源码,适用于赶项目需求
- 基于跨语言统一的C++头文件设计源码开发方案
- 基于MindSpore 1.3的T-GCNTemporal Graph Convolutional Network设计源码
- 基于Java的贝塞尔曲线绘制酷炫轮廓背景设计源码
- 基于Vue框架的Oracle数据库实训大作业设计与实现源码
- 基于SpringBoot和Vue的共享单车管理系统设计源码