开题报告2141859张雨薇1117资源-CSDN文库

需积分: 6 182 浏览量 2022-11-17 23:51:04 上传评论收藏 342KB DOC 举报

资源推荐

资源详情

资源评论

专业学位硕士研究生学位论文选题报告及工作计划

（非全日制）

论文题目基于提升数据质量来增强在模型性能研究

学号 2 1 4 1 8 5 9

姓名张雨薇

专业电子信息

所在学院电子与信息工程学院

指导教师叶晨

选题时间 2 0 2 2 年 1 1 月 2 0 日

同济大学研究生院

2022 年 11 月 20 日

TONGJI UNIVERSITY

1．研究问题

1）所要研究的本专业领域的科学技术问题

2）研究背景及选题依据

3）研究目标

4）专业理论意义及实际应用价值

科学技术问题：

本课题是对训练数据分析以及缺陷识别研究，并解决训练数据存在脏数据，

训练数据覆盖不足，训练数据分布偏置的问题。训练数据集的质量问题需要获得

更多的关注目光，NLP 开发者需要投入更多精力在提升数据集质量与数据精度上。

结构化和非结构化数据的大量积累。数据集的重要性不言而喻。数据增强让有限

的数据产生更多的数据，增加训练样本的数量以及多样性（噪声数据），提升模

型鲁棒性，避免过拟合,增加训练数据，提高模型泛化能力。

研究背景和选题依据：

模型表现常常受限于数据质量，常见的脏数据识别，训练数据覆盖不足，数

据的分布偏置问题。

1 脏数据识别

训练数据标注质量对模型效果有较大影响，但受限于标注人员水平、标注任

务难易程度等影响，训练数据中都存在一定比例的标注较差的数据。当标注数据

规模较大时，数据标注检查就成为一个难题。对于数据集中的样本与模型训练的

关系来讲，数据对于模型，只有两样起作用：特征与噪声。特征是我们要模型去

学习的主要内容。噪声是我们要模型去弱化的主要内容。

近年来，深度神经网络模型和集成模型在很多方面取得了优异的表现，其

可解释性也随即成为值得关注的研究方向。深入理解训练集数据对于模型预测产

生的影响可以帮助理解，分析，和调试模型。该方向上的代表性方法，Representer

Point Selection，通过指向训练集中的一组称为代表样本, 用于对给定的测试

样本给出预测。具体而言, 可以将神经网络的激活前的预测分解为训练点激活状

态的线性组合, 其权重与代表样本相对应, 从而可以体现出该样本点对网络参数

的重要性。这种做法能够促使对网络进行更深入的理解, 而不仅仅是训练样本的

影响: 标签为正的代表样本对应 positive 的训练样本, 同时，标签为负的代表

样本对应 negative 的训练样本。这种方法具有比较好的可扩展性, 能够突破影

响函数的限制，该方法能够进行实时反馈。根据神经网络的最后一层线性决定层

把模型预测分解到每一个训练集数据上来确定其影响。

2 训练数据覆盖不足

稀疏数据是缺乏足够训练数据支持导致低置信度的待预测数据，由于模型在

训练过程中没有学习到足够与待预测样本相似的数据，模型难以正确预测样本所

属类别。训练数据覆盖不足会导致模型在对应的测试数据上表现不好。数据扩充

是提升模型效果直接的方法，然而数据标注是一个费时费力的工作，如何标注更

少的数据带来更大的效果提升是大多数 NLP 开发者面临的难题。

利用基于特征相似度的实例级证据分析方法，抽取开发集中样本的支持训练

证据，并计算支持证据平均分（通常为得分前三的支持训练证据均分）。分数较

低的样本表明其训练证据不足，在训练集中较为稀疏，缺乏训练证据支持的稀疏

数据，通常可以采用数据增强或少量数据标注的两种低成本方式，提升模型预测

效果

1 从 LCQMC 的训练数据中随机抽取 5000 条作为训练集，剩余数据作为未标注数

据集

基于抽取的训练集 train_5000.tsv 训练一个基线模型。

2 基于该论文表述的基于相似性归因实例归因方法，从测试数据中识别因训练数

据覆盖不足而导致的预测效果差的测试样本，训练数据对此类数据覆盖度较低，

模型在这些样本上表现也相对较差，称作目标集。

3 在目标数据选择好后，只需要再次利用基于相似性归因实例归因方法从未标注

的数据集 rest_train.tsv 中选择支持目标集的有效数据进行人工标注即可。

4 在完成有效数据的标注后，将其与原始数据拼接后训练模型，即可提升模型效

果。

3 数据分布偏置识别

受限于数据集收集方法、标注人员经验等影响，构建的训练数据集存在分布

偏置问题。模型会利用数据集中的偏置作为预测的捷径，如在情感分析任务中，

遇到否定词或描述直接给出“负向”情感预测。这种偏置会导致模型没有学会真

正的理解和推理能力，在与训练数据分布一致的测试数据上表现非常好，但在与

训练数据分布不一致的测试数据上表现很差，也就是说模型的泛化性和鲁棒性很

差。

解决方式

基于数据集统计方法偏置识别方法，并提供了数据分布修正和权重修正两种优

化策略

基于数据集统计方法偏置识别方法即统计训练数据中词与标注标签的分布，基于

此进行偏置词和数据的识别。

数据权重修正通过降低偏置样本对训练 loss 的影响来减少模型从偏置样本中学

习，即在训练 loss 计算时引入样本的偏置度

利用模型特征和标签之间虚假相关性的行为，一种损失函数加权纠偏的训练

策略 LLS（Less Learn Shortcut）以缓解 NLP 模型对快捷方式的过度依赖。通

过统计训练数据中偏置词，统计词在不同类别上的分布。基于偏置词的统计结果，

计算训练集中样本偏置度的大小，生成包含样本权重的训练数据。考虑词的有偏

性和频次，提供计算样本偏置度的策略，基于带偏置度的训练数据训练模型，即

剩余17页未读，继续阅读

评论收藏

内容反馈

zyw_csdn

粉丝: 0
资源: 19

开题报告2141859张雨薇1117

中期报告-2141859张雨薇.pptx

开题报告2141859张雨薇1118

开题报告2141859张雨薇1115

开题报告2141859张雨薇1113

中期报告张雨薇PPT版本

离散数学学习笔记.zip

雨薇在线 vs6_4in1_2of3

雨薇在线 vs6_4in1_1of3

雨薇在线 vs6_4in1_3of3

61516405邓雨薇1

YW_W2SP4_6IN1_CN.iso

人力资源管理系统数据库.doc

人民币汇率波动对制造业出口企业投资的影响研究

正交设计优选大黄甘草汤的提取工艺

论文研究-A GDSF-M Cache Replacement Algorithm Based on Enterprise Reporting System.pdf

六株恶性肿瘤细胞株对胡桃醌含药血清的敏感性测试研究

Eu(Ⅲ)-PNVA-co-PSt纳米微球的合成及其性能研究

第十七届全国大学生智能车竞赛技术报告

32个uniapp项目源码 涵盖商城团购等

反编译脚本解包 wxapkg

video downloadhelper 合作应用2.0.10版本.

CSDN积分的获取方式

web端播放rtsp/rtmp视频流demo

chatGPT商业版源码和教程.zip

100套大数据可视化大屏模板

微信小程序反编译脚本（配合Node.js使用）

stealth.min.js

VueSerial的usb.json

1.1.11 版本 nvm-setup.exe 压缩包，记得解压

最新资源

32个uniapp项目源码涵盖商城团购等