没有合适的资源?快使用搜索试试~ 我知道了~
开题报告2141859张雨薇1115
资源推荐
资源详情
资源评论
专业学位硕士研究生学位论文选题报告及工作计划
(非全日制)
论文题目 基于提升数据质量来增强在模型性能研究
学 号 2 1 4 1 8 5 9
姓 名 张雨薇
专 业 电 子 信 息
所 在 学 院 电子与信息工程学院
指 导 教 师 叶 晨
选 题 时 间 2 0 2 2 年 1 1 月 2 0 日
同济大学研究生院
2022 年 11 月 20 日
TONGJI UNIVERSITY
1
1.研究问题
1)所要研究的本专业领域的科学技术问题
2)研究背景及选题依据
3)研究目标
4)专业理论意义及实际应用价值
科学技术问题:
本课题是对训练数据分析以及缺陷识别研究,并解决训练数据存在脏数据,
训练数据覆盖不足,训练数据分布偏置的问题。训练数据集的质量问题需要获得
更多的关注目光,NLP 开发者需要投入更多精力在提升数据集质量与数据精度上。
结构化和非结构化数据的大量积累。数据集的重要性不言而喻。数据增强让有限
的数据产生更多的数据,增加训练样本的数量以及多样性(噪声数据),提升模
型鲁棒性,避免过拟合,增加训练数据,提高模型泛化能力。
研究背景和选题依据:
模型表现常常受限于数据质量,常见的脏数据识别,训练数据覆盖不足,数
据的分布偏置问题。
1 脏数据识别
训练数据标注质量对模型效果有较大影响,但受限于标注人员水平、标注任
务难易程度等影响,训练数据中都存在一定比例的标注较差的数据。当标注数据
规模较大时,数据标注检查就成为一个难题。对于数据集中的样本与模型训练的
关系来讲,数据对于模型,只有两样起作用:特征与噪声。特征是我们要模型去
学习的主要内容。噪声是我们要模型去弱化的主要内容。
近年来,深度神经网络模型和集成模型在很多方面取得了优异的表现, 其
可解释性也随即成为值得关注的研究方向。深入理解训练集数据对于模型预测产
生的影响可以帮助理解,分析,和调试模型。该方向上的代表性方法,Representer
Point Selection,通过指向训练集中的一组称为代表样本, 用于对给定的测试
样本给出预测。具体而言, 可以将神经网络的激活前的预测分解为训练点激活状
态的线性组合, 其权重与代表样本相对应, 从而可以体现出该样本点对网络参数
的重要性。这种做法能够促使对网络进行更深入的理解, 而不仅仅是训练样本的
影响: 标签为正的代表样本对应 positive 的训练样本, 同时,标签为负的代表
样本对应 negative 的训练样本。这种方法具有比较好的可扩展性, 能够突破影
响函数的限制,该方法能够进行实时反馈。根据神经网络的最后一层线性决定层
把模型预测分解到每一个训练集数据上来确定其影响。
2 训练数据覆盖不足
稀疏数据是缺乏足够训练数据支持导致低置信度的待预测数据,由于模型在
训练过程中没有学习到足够与待预测样本相似的数据,模型难以正确预测样本所
属类别。训练数据覆盖不足会导致模型在对应的测试数据上表现不好。数据扩充
是提升模型效果直接的方法,然而数据标注是一个费时费力的工作,如何标注更
1
少的数据带来更大的效果提升是大多数 NLP 开发者面临的难题。
利用基于特征相似度的实例级证据分析方法,抽取开发集中样本的支持训练
证据,并计算支持证据平均分(通常为得分前三的支持训练证据均分)。分数较
低的样本表明其训练证据不足,在训练集中较为稀疏,缺乏训练证据支持的稀疏
数据,通常可以采用数据增强或少量数据标注的两种低成本方式,提升模型预测
效果
1 从 LCQMC 的训练数据中随机抽取 5000 条作为训练集,剩余数据作为未标注数
据集
基于抽取的训练集 train_5000.tsv 训练一个基线模型。
2 基于该论文表述的基于相似性归因实例归因方法,从测试数据中识别因训练数
据覆盖不足而导致的预测效果差的测试样本,训练数据对此类数据覆盖度较低,
模型在这些样本上表现也相对较差,称作目标集。
3 在目标数据选择好后,只需要再次利用基于相似性归因实例归因方法从未标注
的数据集 rest_train.tsv 中选择支持目标集的有效数据进行人工标注即可。
4 在完成有效数据的标注后,将其与原始数据拼接后训练模型,即可提升模型效
果。
3 数据分布偏置识别
受限于数据集收集方法、标注人员经验等影响,构建的训练数据集存在分布偏
置问题。模型会利用数据集中的偏置作为预测的捷径,如在情感分析任务中,遇
到否定词或描述直接给出“负向”情感预测。这种偏置会导致模型没有学会真正
的理解和推理能力,在与训练数据分布一致的测试数据上表现非常好,但在与训
练数据分布不一致的测试数据上表现很差,也就是说模型的泛化性和鲁棒性很差。
解决方式
基于数据集统计方法偏置识别方法,并提供了数据分布修正和权重修正两种优
化策略
基于数据集统计方法偏置识别方法即统计训练数据中词与标注标签的分布,基于
此进行偏置词和数据的识别。
数据权重修正通过降低偏置样本对训练 loss 的影响来减少模型从偏置样本中学
习,即在训练 loss 计算时引入样本的偏置度
利用模型特征和标签之间虚假相关性的行为,一种损失函数加权纠偏的训练策
略 LLS(Less Learn Shortcut)以缓解 NLP 模型对快捷方式的过度依赖。通过
统计训练数据中偏置词,统计词在不同类别上的分布。基于偏置词的统计结果,
计算训练集中样本偏置度的大小,生成包含样本权重的训练数据。考虑词的有偏
性和频次,提供计算样本偏置度的策略,基于带偏置度的训练数据训练模型,即
可提升模型效果。
剩余17页未读,继续阅读
资源评论
zyw_csdn
- 粉丝: 0
- 资源: 19
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功