开题报告2141859张雨薇1115资源-CSDN文库

需积分: 4 23 浏览量 2022-11-16 00:11:36 上传评论收藏 345KB DOC 举报

数据上表现不佳，降低了模型的泛化能力。数据分布偏置的识别和纠正至关重要，它涉及到如何让模型从训练数据中学到更为通用的规律，而不是简单地记忆特定模式。针对训练数据的质量问题，本研究主要关注三个方面：脏数据识别、训练数据覆盖不足以及数据分布偏置。脏数据识别涉及对标注质量的评估，由于标注人员的水平和任务难度差异，训练数据中可能存在错误或低质量的标注。这些脏数据可能误导模型学习，因此需要有效的数据清洗策略。例如，可以通过引入自动化工具和算法来检测和修正标注错误，或者建立多重校验机制以提高数据质量。训练数据覆盖不足是一个普遍存在的问题，特别是在自然语言处理（NLP）领域。当模型面临未见过的输入时，由于缺乏足够的相似训练样本，可能导致预测性能下降。为了解决这个问题，数据增强是一种常用技术，它通过各种变换（如词汇替换、句子重组等）生成新的训练样本，增加数据的多样性和数量，从而提高模型的泛化能力。此外，还可以使用实例级证据分析，通过比较训练和测试样本之间的特征相似度，找出需要额外标注的稀疏数据，以针对性地提升模型性能。数据分布偏置是指训练数据集中某些特征或类别的频率不均衡，这可能导致模型过于依赖某些特征而忽视其他重要信息。为缓解这种偏置，可以采取重采样策略，如过采样少数类或欠采样多数类，以达到平衡数据分布；或者使用对抗性训练，使模型在面对不同分布的数据时也能保持稳定。此外，领域适应和迁移学习也是应对数据偏置的有效手段，通过在相关但不同分布的数据集上预训练模型，可以提升模型在目标任务上的泛化性能。本研究的科学技术问题集中在如何通过提升训练数据质量来增强模型性能，其专业理论意义在于深入理解数据对模型学习的影响，以及如何通过改进数据处理策略优化模型预测。实际应用价值则体现在提高NLP模型在实际任务中的准确性和鲁棒性，这对于文本分类、情感分析、机器翻译等广泛应用具有重要价值。通过上述方法的探索和实践，可以为NLP开发者提供更有效的数据管理和模型训练策略，从而推动相关技术的发展。

资源推荐

资源详情

资源评论

专业学位硕士研究生学位论文选题报告及工作计划

（非全日制）

论文题目基于提升数据质量来增强在模型性能研究

学号 2 1 4 1 8 5 9

姓名张雨薇

专业电子信息

所在学院电子与信息工程学院

指导教师叶晨

选题时间 2 0 2 2 年 1 1 月 2 0 日

同济大学研究生院

2022 年 11 月 20 日

TONGJI UNIVERSITY

1．研究问题

1）所要研究的本专业领域的科学技术问题

2）研究背景及选题依据

3）研究目标

4）专业理论意义及实际应用价值

科学技术问题：

本课题是对训练数据分析以及缺陷识别研究，并解决训练数据存在脏数据，

训练数据覆盖不足，训练数据分布偏置的问题。训练数据集的质量问题需要获得

更多的关注目光，NLP 开发者需要投入更多精力在提升数据集质量与数据精度上。

结构化和非结构化数据的大量积累。数据集的重要性不言而喻。数据增强让有限

的数据产生更多的数据，增加训练样本的数量以及多样性（噪声数据），提升模

型鲁棒性，避免过拟合,增加训练数据，提高模型泛化能力。

研究背景和选题依据：

模型表现常常受限于数据质量，常见的脏数据识别，训练数据覆盖不足，数

据的分布偏置问题。

1 脏数据识别

训练数据标注质量对模型效果有较大影响，但受限于标注人员水平、标注任

务难易程度等影响，训练数据中都存在一定比例的标注较差的数据。当标注数据

规模较大时，数据标注检查就成为一个难题。对于数据集中的样本与模型训练的

关系来讲，数据对于模型，只有两样起作用：特征与噪声。特征是我们要模型去

学习的主要内容。噪声是我们要模型去弱化的主要内容。

近年来，深度神经网络模型和集成模型在很多方面取得了优异的表现，其

可解释性也随即成为值得关注的研究方向。深入理解训练集数据对于模型预测产

生的影响可以帮助理解，分析，和调试模型。该方向上的代表性方法，Representer

Point Selection，通过指向训练集中的一组称为代表样本, 用于对给定的测试

样本给出预测。具体而言, 可以将神经网络的激活前的预测分解为训练点激活状

态的线性组合, 其权重与代表样本相对应, 从而可以体现出该样本点对网络参数

的重要性。这种做法能够促使对网络进行更深入的理解, 而不仅仅是训练样本的

影响: 标签为正的代表样本对应 positive 的训练样本, 同时，标签为负的代表

样本对应 negative 的训练样本。这种方法具有比较好的可扩展性, 能够突破影

响函数的限制，该方法能够进行实时反馈。根据神经网络的最后一层线性决定层

把模型预测分解到每一个训练集数据上来确定其影响。

2 训练数据覆盖不足

稀疏数据是缺乏足够训练数据支持导致低置信度的待预测数据，由于模型在

训练过程中没有学习到足够与待预测样本相似的数据，模型难以正确预测样本所

属类别。训练数据覆盖不足会导致模型在对应的测试数据上表现不好。数据扩充

是提升模型效果直接的方法，然而数据标注是一个费时费力的工作，如何标注更

少的数据带来更大的效果提升是大多数 NLP 开发者面临的难题。

利用基于特征相似度的实例级证据分析方法，抽取开发集中样本的支持训练

证据，并计算支持证据平均分（通常为得分前三的支持训练证据均分）。分数较

低的样本表明其训练证据不足，在训练集中较为稀疏，缺乏训练证据支持的稀疏

数据，通常可以采用数据增强或少量数据标注的两种低成本方式，提升模型预测

效果

1 从 LCQMC 的训练数据中随机抽取 5000 条作为训练集，剩余数据作为未标注数

据集

基于抽取的训练集 train_5000.tsv 训练一个基线模型。

2 基于该论文表述的基于相似性归因实例归因方法，从测试数据中识别因训练数

据覆盖不足而导致的预测效果差的测试样本，训练数据对此类数据覆盖度较低，

模型在这些样本上表现也相对较差，称作目标集。

3 在目标数据选择好后，只需要再次利用基于相似性归因实例归因方法从未标注

的数据集 rest_train.tsv 中选择支持目标集的有效数据进行人工标注即可。

4 在完成有效数据的标注后，将其与原始数据拼接后训练模型，即可提升模型效

果。

3 数据分布偏置识别

受限于数据集收集方法、标注人员经验等影响，构建的训练数据集存在分布偏

置问题。模型会利用数据集中的偏置作为预测的捷径，如在情感分析任务中，遇

到否定词或描述直接给出“负向”情感预测。这种偏置会导致模型没有学会真正

的理解和推理能力，在与训练数据分布一致的测试数据上表现非常好，但在与训

练数据分布不一致的测试数据上表现很差，也就是说模型的泛化性和鲁棒性很差。

解决方式

基于数据集统计方法偏置识别方法，并提供了数据分布修正和权重修正两种优

化策略

基于数据集统计方法偏置识别方法即统计训练数据中词与标注标签的分布，基于

此进行偏置词和数据的识别。

数据权重修正通过降低偏置样本对训练 loss 的影响来减少模型从偏置样本中学

习，即在训练 loss 计算时引入样本的偏置度

利用模型特征和标签之间虚假相关性的行为，一种损失函数加权纠偏的训练策

略 LLS（Less Learn Shortcut）以缓解 NLP 模型对快捷方式的过度依赖。通过

统计训练数据中偏置词，统计词在不同类别上的分布。基于偏置词的统计结果，

计算训练集中样本偏置度的大小，生成包含样本权重的训练数据。考虑词的有偏

性和频次，提供计算样本偏置度的策略，基于带偏置度的训练数据训练模型，即

可提升模型效果。

剩余17页未读，继续阅读

评论收藏

内容反馈

zyw_csdn

粉丝: 0
资源: 19

开题报告2141859张雨薇1115

中期报告-2141859张雨薇.pptx

开题报告2141859张雨薇1113

开题报告2141859张雨薇1118

开题报告2141859张雨薇1117

中期报告张雨薇PPT版本

雨薇在线 vs6_4in1_3of3

雨薇在线 vs6_4in1_1of3

雨薇在线 vs6_4in1_2of3

61516405邓雨薇1

YW_W2SP4_6IN1_CN.iso

实习总结鉴定表评语.doc

在偏置样本的不均衡类别上重复采样，达到数据均衡的目的

基于仿生机械臂的体态遥控与可视化系统设计.pdf

优秀资料（2021-2022年收藏）双手协调能力测试实验报告.doc

2020哔哩哔哩流量生态白皮书.pdf

二年级英语作文myself

Eu(Ⅲ)-PNVA-co-PSt纳米微球的合成及其性能研究

小学自我介绍15篇.docx

根据电采暖运行原理，负荷特性对电采暖进行建模并根据虚拟电厂的需求响应需求，在接收到调节指令后，进行分布式电采暖优化调节策略

游戏场景建模, 本人的期末考试作品

年度考核1.pdf

新人教版(部编教材)七年级道德与法治下册3.1-青春飞扬教学设计.doc

大学生创新创业项目中期汇报学习教案.pptx

基于数据挖掘的古代通便丸剂用药规律研究.pdf

100份互联网+创青春商业计划书2.zip

100份互联网+创青春商业计划书1.zip

FC任天堂红白机中文模拟器+500经典游戏大集合

模组+PACK 测试 相关 法规，工艺，方法分析

商业计划书PPT模板（32份）.zip

CiteSpace-6.2.4.msi

最新资源

模组+PACK 测试相关法规，工艺，方法分析