置信学习简述.rar资源-CSDN文库

共1个文件

pdf：1个

版权申诉

81 浏览量 2023-10-18 18:01:31 上传评论收藏 2.19MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

置信学习简述.rar （1个子文件）

置信学习简述.pdf 2.3MB

别让数据坑了你！⽤置信学习找出错误标注（附开源实现）

JayLou娄杰

昨天⼣⼩瑶的卖萌屋

星标/置顶⼩屋，带你解锁

最萌最前沿的NLP、搜索与推荐技术

⽂ | JayLou娄杰（NLP算法⼯程师，信息抽取⽅向）

编 | 北⼤⼩才⼥⼩轶

美 | Sonata

1 前⾔

在实际⼯作中，你是否遇到过这样⼀个问题或痛点：⽆论是通过哪种⽅式获取的标注数据，数据标注质量可能不过关，存在⼀些

错误？亦或者是数据标注的标准不统⼀、存在⼀些歧义？特别是badcase反馈回来，发现训练集标注的居然和badcase⼀样？如

下图所⽰，QuickDraw、MNIST和Amazon Reviews数据集中就存在错误标注。

为了快速迭代，⼤家是不是常常直接⼈⼯去清洗这些“脏数据”？（笔者也经常这么⼲〜）。但数据规模上来了咋整？有没有⼀种

⽅法能够⾃动找出哪些错误标注的样本呢？基于此，本⽂尝试提供⼀种可能的解决⽅案——置信学习。

本⽂的组织架构是：

2 置信学习

2.1 置信学习的定义

那什么是置信学习呢？这个概念来⾃于ICML2020的⼀篇由MIT和Google联合提出的paper：《[Conﬁdent Learning: Estimating

Uncertainty in Dataset Labels][1] 》。论⽂提出的置信学习（conﬁdent learning， CL）是⼀种新兴的、具有原则性的框架，以识

别标签错误、表征标签噪声并应⽤于带噪学习（noisy label learning）。

原⽂链接：https://arxiv.org/abs/1911.00068 Arxiv访问慢的⼩伙伴也可以在订阅号后台回复关键词【0630】下载论⽂PDF。

笔者注：笔者乍⼀听「置信学习」挺陌⽣的，但回过头来想想，好像⼲过类似的事情，⽐如：在某些场景下，对训练集通

过交叉验证来找出⼀些可能存在错误标注的样本，然后交给⼈⼯去纠正。此外，神经⽹络的成功通常建⽴在⼤量、⼲净的

数据上，标注错误过多必然会影响性能表现，带噪学习可是⼀个⼤的topic，有兴趣可参考这些⽂献

https://github.com/subeeshvasu/Awesome-Learning-with-Label-Noise。

废话不说，⾸先给出这种置信学习框架的优势：

最⼤的优势：可以⽤于发现标注错误的样本！

⽆需迭代，开源了相应的python包，⽅便地快速使⽤！在ImageNet中查找训

练集的标签错误仅仅需要3分钟！

可直接估计噪声标签与真实标签的联合分布，具有理论合理性。

不需要超参数，只需使⽤交叉验证来获得样本外的预测概率。

不需要做随机均匀的标签噪声的假设（这种假设在实践中通常不现实）。

与模型⽆关，可以使⽤任意模型，不像众多带噪学习与模型和训练过程强耦

合。

笔者注：置信学习找出的「标注错误的样本」，不⼀定是真实错误的样本，这是⼀种基于不确定估计的选择⽅法。

2.2 置信学习开源⼯具：cleanlab

论⽂最令⼈惊喜的⼀点就是作者这个置信学习框架进⾏了开源，并命名为cleanlab，我们可以 pip install cleanlab 使⽤。

cleanlab

我们要想找出错误标注的样本，通过使⽤cleanlab操作⼗分简单，我们仅仅需要提供两个输⼊，然后只需要1⾏code就可以找出

标注数据中的错误：

from cleanlab.pruning import get_noise_indices

#

输⼊

# s:

噪声标签

# psx: n x m

的预测概率概率，通过交叉验证获得

ordered_label_errors = get_noise_indices(

s=numpy_array_of_noisy_labels,

psx=numpy_array_of_predicted_probabilities,

sorted_index_method='normalized_margin', # Orders label error

s

)

这个输⼊是啥？很简单，⼀个输⼊是原始的样本标签（由于这些标签可能存在错误，我们称之为「噪声标签」吧〜），另⼀个输

⼊就是通过对训练集交叉验证，来预测的每⼀个样本在不同标签类别下的概率，这是⼀个nXm的概率矩阵（n为数据集⼤⼩，m

为标签类别总数）。

我们来看看cleanlab在MINIST数据集中找出的错误样本吧，是不是感觉很 〜

MINIST

如果你不只是想找到错误标注的样本，还想把这些标注噪⾳clean掉之后重新继续学习，那3⾏codes也可以搞定，这时候连交叉

验证都省了〜

from cleanlab.classification import LearningWithNoisyLabel

s

from sklearn.linear_model import LogisticRegression

#

其实可以封装任意⼀个你⾃定义的模型

.

lnl = LearningWithNoisyLabels(clf=LogisticRegression())

lnl.fit(X=X_train_data, s=train_noisy_labels)

#

对真实世界进⾏验证

.

predicted_test_labels = lnl.predict(X_test)

笔者注：上⾯虽然只给出了CV领域的例⼦，但置信学习也适⽤于NLP啊〜此外， cleanlab 可以封装任意⼀个你⾃定义的

模型，以下机器学习框架都适⽤：scikit-learn, PyTorch, TensorFlow, FastText。

2.3 置信学习的3个步骤

置信学习开源⼯具 cleanlab 操作起来⽐较容易，但置信学习背后也是有着充分的理论⽀持的。事实上，⼀个完整的置信学习框

架，需要完成以下三个步骤（如置信学习框架图所⽰）：

1. Count：估计噪声标签和真实标签的联合分布；

2. Clean：找出并过滤掉错误样本；

3. Re-Training：过滤错误样本后，重新调整样本类别权重，重新训练；

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 633

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip