别让数据坑了你!⽤置信学习找出错误标注(附开源实现)
JayLou娄杰
昨天⼣⼩瑶的卖萌屋
星标/置顶⼩屋,带你解锁
最萌最前沿的NLP、搜索与推荐技术
⽂ | JayLou娄杰(NLP算法⼯程师,信息抽取⽅向)
编 | 北⼤⼩才⼥⼩轶
美 | Sonata
1 前⾔
在实际⼯作中,你是否遇到过这样⼀个问题或痛点:⽆论是通过哪种⽅式获取的标注数据,数据标注质量可能不过关,存在⼀些
错误?亦或者是数据标注的标准不统⼀、存在⼀些歧义?特别是badcase反馈回来,发现训练集标注的居然和badcase⼀样?如
下图所⽰,QuickDraw、MNIST和Amazon Reviews数据集中就存在错误标注。
为了快速迭代,⼤家是不是常常直接⼈⼯去清洗这些“脏数据”?(笔者也经常这么⼲〜)。但数据规模上来了咋整?有没有⼀种
⽅法能够⾃动找出哪些错误标注的样本呢?基于此,本⽂尝试提供⼀种可能的解决⽅案——置信学习。
本⽂的组织架构是: