没有合适的资源?快使用搜索试试~ 我知道了~
自监督学习效果差?Meta AI 提出 Q-score 快速过滤错误样本!.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 171 浏览量
2023-08-12
21:59:31
上传
评论
收藏 4.23MB PDF 举报
温馨提示
试读
11页
自监督学习效果差?Meta AI 提出 Q-score 快速过滤错误样本!.pdf
资源推荐
资源详情
资源评论
2023/6/28 22:32
自监督学习效果差?Meta AI 提出 Q-score 快速过滤错误样本!
https://mp.weixin.qq.com/s/iUKWtHRJWFrt7Lxmdf13DA
1/11
自监督学习效果差?Meta AI 提出 Q-score 快速过滤错误样本!
收录于合集
#卖萌屋@计算机视觉
15个
文 | jxyxiangyu
自监督学习指的是不依靠人工标注数据,直接从数据中学习到有用的特征表示。自监督学习中
所采用的监督信息可以是“是否属于同一实例样本”的二分类标签(对比学习),也可以是一段
连续的自然语言文本的下一个词(自回归语言模型)。
然而自监督学习相关的论文看多了,感觉也就那么回事。除了可以减少对标注数据的依赖,下
游任务中该分错类的case,照样会分错类。••
那么究竟有没有什么灵丹妙药可以缓 解 自 监 督 模 型 在 下 游 任 务 中 出 现 分 错 类 的 情 况 呢?
最近 meta AI 的一篇工作研究了自监督模型在下游任务错误分类的原因,并且提出了缓解这一
问题的方法,让我们一起来看看吧。
jxyxiangyu 2022-05-09 12:10 发表于四川
原创
夕小瑶科技说
2023/6/28 22:32
自监督学习效果差?Meta AI 提出 Q-score 快速过滤错误样本!
https://mp.weixin.qq.com/s/iUKWtHRJWFrt7Lxmdf13DA
2/11
论 文 标 题 :
Understanding Failure Modes of Self-Supervised Learning
论 文 链 接 :
https://arxiv.org/pdf/2203.01881.pdf
自监督模型下游错误分类的潜在原因
为了研究自监督模型学习到的特征表示中哪 些 特 征 可以有助于下游任务的正确分 类,作者用
ImageNet-100 预训练了 SimCLR 模型作为 baseline ,并且在学习到的特征表示后面接了个线
性分类器用于下游任务的分类。
图1 是训练学到的 ImageNet-100 中每个类的平均特征表示(部分特征),其中每个类是按照
该类别的分类准确度(acc)排序的。图中用颜色深浅表示平均特征表示的值 的 绝 对 大 小 ,左边
是在下游任务中可以被正确分类的样本,右边是错误分类的样本的平均特征表示。
可以看到,
1. 表征空间几乎是稀 疏 的,每个类的大部分特征都接近0;
2. 在正确分类的样本中,每个类的平均特征表示都有十分明显的几个特征,这些特征是类 别
所 独 有 的,不同类别的可区分特征都不一致,且不同类别的可区分特征有着高度的差异
性,而这一点在错误分类的样本中并不明显,错误分类的样本其特征表示没 有 明显突出变
化较大的特征;
3. 在所 有 样本中都存在或者都激活的特征不太可能是下游任务中用于区分某个类别的特征。
为了研究单个特征对分类正确与否的影响,作者进一步绘制了主要特征和噪声特征的热图,如
下所示:
2023/6/28 22:32
自监督学习效果差?Meta AI 提出 Q-score 快速过滤错误样本!
https://mp.weixin.qq.com/s/iUKWtHRJWFrt7Lxmdf13DA
3/11
可以看到对于正确分类的样本,主要特征能够捕捉到类别相关的特征,而分类错误的样本,主
要特征则包含了太多的噪音和错误的信息;噪声特征的热图则侧重于样本中无信息的部分。因
此,作者指出特征表示中包含了很多噪声特征,这些特征对正确分类没有太多的贡献。
综上所述,作者指出了错误分类的两个原因:
1. 训练得到的特征表示中缺 少 类别特定的主要特征;
2. 主要特征映射到了样本中错 误 的部分
基于上述几点,作者希望可以通过利用特征表示的特点用无 监 督 的方式对特征表示进行分类,
而不需要下游任务中的标签。
自监督表征的质量指标
为了衡量自监督模型学到的特征表示的质量,作者定义了一系列质量指标。
假定一个 SimCLR 模型,由 ResNet 基本编码器(base encoder,记作 )和多层感知机投
影 层( 记 作 )组 成 。 和 是 个 数据 样 本中 的第 个样 本 的两 种变换 表
示,这 里作者 用到的数 据增强方 式是随 机裁剪、 随机水平翻转等 方式的组 合。与 SimCLR 类
似 , 将 样 本 输 入 基 本 编 码 器 , 分 别 得 到 自 监 督 模 型 的 特 征 表 示 和
,用投影层的输出 和 来计算损失函数和训练
模型,其中 和 分别是表征空间和投影空间的维度大小。模型的优化目标是:
剩余10页未读,继续阅读
资源评论
地理探险家
- 粉丝: 996
- 资源: 5416
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 蓝桥杯2024年第十五届省赛真题-前缀总分
- com.qihoo.appstore_300101305-1.apk
- tensorflow-gpu-2.7.1-cp37-cp37m-manylinux2010-x86-64.whl
- tensorflow-2.7.2-cp37-cp37m-manylinux2010-x86-64.whl
- tensorflow-2.7.1-cp39-cp39-manylinux2010-x86-64.whl
- 蓝桥杯2024年第十五届省赛真题-传送阵
- com.qihoo.appstore_300101305.apk
- linux之线程同步一.doc
- keil5配色方案10种
- python烟花代码.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功