没有合适的资源?快使用搜索试试~ 我知道了~
6.Learning from Web Data with Self-Organizing Memory Module.docx
需积分: 0 1 下载量 140 浏览量
2021-02-22
17:04:11
上传
评论
收藏 2.41MB DOCX 举报
温馨提示
试读
14页
用自组织记忆模块从网络数据中学习_CVPR2020年图像分类论文
资源推荐
资源详情
资源评论
用自组织记忆模块从网络数据中学习
Abstract
近年来,从网络数据中学习吸引了大量的研究兴趣。然而,抓取的网页图像通常有两种类
型的噪声,标签噪声和背景噪声,这给有效利用它们带来了额外的困难。现有的大多数方
法要么依赖于人的监督,要么忽略背景噪声。在本文中,我们提出了一种新的方法,能够
同时处理这两种类型的噪声,而不需要在训练阶段监控干净的图像。特别地,我们在多实
例学习的框架下,通过将来自同一类别的感兴趣区域(即图像及其区域建议 images and their
region
proposals)分组到包中来制定我们的方法。每个包中的感兴趣区域根据其最接近的聚类的代
表性/区分性分数被分配不同的权重,其中聚类及其分数通过我们设计的存储模块获得。我
们的存储模块可以自然地与分类模块集成,从而形成一个端到端的可训练系统。在四个基
准数据集上的大量实验证明了该方法的有效性。
1. Introduction
深度学习是一种数据饥渴()的方法,需要大量标记良好的训练
样本,但是获取带有干净标记的大量图像是昂贵、耗时和费力的。考虑到网上有大量免费
的网络数据,从网络图像中学习是有希望的。然而,网页数据有两个严重的缺陷标签噪声
和背景噪声。标签噪声是指标签不正确的图像。由于从公共网站搜索时,通常使用类别名
称作为关键字来检索网页图像,因此搜索结果中可能会出现不相关的图像。与标签噪声不
同,与标准的数据集不同背景噪声是由网页图像杂乱的和多样化的内容引起的 。具体来
说,在像 这样的手动标记数据集中,每个类别的目标对象通常出现在中心,并占
据相对较大的区域,产生很少的背景噪声。然而,在网页图像中,背景或无关对象可能占
据整个图像的大部分。图 中提供了一个例子,其中两个图像是用关键字“爬取的。左
图由于有狗粮,属于标签噪声,与“狗”间接相关。同时,右边的图像属于背景噪声,因为
草地占据了整个图像的大部分,并且小孩也占据了显著的位置。
已 经 有 许 多 关 于 使 用 网 络 图 像 学 习 分 类 器 的 研 究
, , , , , , , , 。 然 而 , 他 们 中 的 大 多 数
,,,,,,只关注标签噪声。相比之下,最近的一些作品开始考虑背
景噪声。特别是庄等人使用注意图来抑制背景噪声,但是这种方法没有充分利用不同
区域之间的关系,这可能限制其去除噪声区域的能力。 等人利用弱监督区域建议网
络( !"#$%#$$#" !)从网页图像中提取干净的区域建议( to
disll clean region proposals ),但是这种方法在训练阶段需要额外的干净图像。
在这项工作中,我们提出了一种新的方法,以解决标签噪声和背景噪声同时进行,而
不使用人类注释。我们首先使用无监督的建议提取方法(unsupervised proposal extracon
method)来捕获可能包含有意义对象的图像区域。在本文的主要部分,我们使用了
“&'(来表示图像及其候选区域。根据多实例学习的思想,来自同一类别的感兴趣区域被分组到包
中,每个包中的感兴趣区域被称为实例。基于每个包中至少有一定比例的干净感兴趣区域的假设,
我们倾向于为不同的感兴趣区域学习不同的权重,较低的权重表示有噪声的感兴趣区域,通过这种
方式可以减轻标签/背景噪声。利用感兴趣区域权重,我们可以使用每个包中感兴趣 区域级别特征的
加权平均值作为包级别特征,它们比感兴趣区域级别特征更干净,因此更适合于训练鲁棒的分类
器。
为了充分利用不同感兴趣区域之间的关系,我们倾向于通过将感兴趣区域与原型
($$#)进行比较来学习感兴趣区域权重,而不是像),那样通过自我关注来学
习权重,原型是通过聚类包级特征(*"#+"%"#)获得的。每个集群中心
,即原型-都有一个代表的得分,这意味着这个聚类中心是如何代表每一个种类的。Each
cluster center (i.e., prototype) has a represen-tave (resp., discriminave) score for each
category, which means how this cluster center is representave (resp., dis-criminave) for each
category。然后,每个感兴趣区域的权重可以基于其对应类别的最近聚类中心来计算。虽
然原型的思想已经在许多领域被研究过,例如半监督学习和少镜头学习,但是它们
通常在每个类别内对样本进行聚类,而我们对来自所有类别的包级特征进行聚类以捕捉跨
类别的关系。
传统的聚类方法,如 .#,可以用来聚类包级特征(+"%"#)。然而,
我们使用最近提出的键值存储模块(!%"")来实现这个目标,它更
强大、更灵活。存储模块可以与分类模块集成,产生端到端的可训练系统。此外,它可以
同时在线存储和更新聚类中心的特定类别代表/区分分数。作为一个小小的贡献,我们采用
了自组织图( "'01$)的思想来改进现有的记忆模块,以稳定训练过程。
我们的贡献可以概括为-主要贡献是在带有记忆模块的多实例学习框架下处理 + 数
据的标签/背景噪声;-次要贡献是提出自组织记忆模块,稳定训练过程和结果; -在几个
基准数据集上的实验证明了该方法在网络图像分类器学习中的有效性。
2. Related Work
223+"$%#4(网络监督学习)
为了从网络数据中学习,以前的工作集中在三个方向上处理标签噪声,去除标签噪声
, ) , , , , , , , , , , , 建 立 噪 声 鲁 棒 性 模 型
, , , , , , , , ) , , 以 及 课 程 学 习 ( **"" )
,。上述方法集中于标签噪声。然而,网页数据也有背景噪音,如所述。为了解
决这个问题,庄等人利用注意机制来减少对背景区域的注意,而孙等人使用弱
无监督的对象定位方法来减少背景噪声。
大多数以前的工作利用额外的信息,如一个小的干净数据集或只考虑标签噪声问题。
相比之下,我们的方法在训练阶段只使用有噪声的网页图像就可以解决标签噪声和背景噪
声。
2215 !#(记忆网络)
记 忆 网 络 ( 1 !# ) 最 近 被 引 入 来 解 决 问 题 回 答 任 务
,,。1 ! 最早是在中提出的,并在中扩展为可端到端训练
的。1"" 等人【】增加了直接读取文档的键和值模块(!%""),使得
! 更 加 灵 活 和 强 大 。 最 近 , 记 忆 网 络 已 被 用 于 单 次 学 习 ( #
"),,少次学习( #"),和半监督学习(##$%#
")。
虽然 !# 已经在许多任务中进行了研究,但我们的工作是第一次利用
!# 来处理网络数据的标签/背景噪声。
221"6(#*4
在多实例学习,1(4-中,多个实例被分组到一个包中,至少有一个正实例触发包级标
签。1(4 的主要目标是学习一个健壮的没有未知实例标签的分类器。基于 71,)的一
些早期方法将一个包视为一个整体,或者推断每个包内的实例标签。在深度学习时代,已
经研究了各种池化操作,如平均池和最大池),,。不同于这些不可训练的池化操
作,一些著作,),,建议可训练的 $#(运算符)学习不同实例的不同权
重。通过利用注意机制,8$$# 和 8$#*9"#提出了一种基于注意的多元线性回归模
型,其注意权重在辅助线性回归模型中训练。:;1(4)更进一步,设计了具有门控注意
机制的排列不变聚集算子。
在 1(4 框架下,我们利用一个记忆模块来学习每个包中实例的重量,这是以前没有探
索过的。
3. Methodology
在本文中,我们用黑体字大写/小写字母表示一个矩阵/向量(例如 : 表示矩阵、 表示
向量) 中的下标 表示 : 的 行或 列。 表示 : 元素的第 行第 < 列。此外,我们用
表示 : 的转置,用 表示 : 和 9 之间的元素积(" #)。
22'%% '1
我们方法的流程图如图 所示。我们首先使用无监督的 =9> 方法提取每个图像的
候选区域($$#"# ) 。 通 过 调 整 =9> 中的超参数,我们希望提取的
$$#"#
覆盖大多数对象,以避免丢失重要信息,参见第 2 节中的详细信息-。我们将来自同一类别
的感兴趣区域,22?#$$#"#-分组到训练包中,其中每个包中的感兴趣区域
被视为实例。为了给每个包中的不同感兴趣区域分配不同的权重,我们将每个感兴趣区域
与其在存储模块(")中最接近的键进行比较。然后将感兴趣区域级特征的
加权平均值作为袋级特征,用于训练分类器和更新存储模块("2)。
剩余13页未读,继续阅读
资源评论
查无此人☞
- 粉丝: 102
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功