针对命名实体识别的数据增强技术针对命名实体识别的数据增强技术.docx资源-CSDN文库

版权申诉

130 浏览量 2022-11-29 17:39:45 上传评论收藏 140KB DOCX 举报

"针对命名实体识别的数据增强技术" 命名实体识别（Named Entity Recognition, NER）是指通过模型自动地识别出一段自然文本中所包含的实体，例如人名、地名、机构名等。由于实体表述十分繁杂多样，往往无法穷举所有可能的实体，使得命名实体识别是一个艰难的任务。在金融科技领域，命名实体识别有着广泛的应用，例如识别出时事新闻中的人名、地名、机构名，能够为后续的金融分析任务提供特征支持。然而，命名实体识别任务的数据标注成本很高，一句话需要标注多个实体，且往往存在歧义和嵌套的情况，导致标注时需要详细斟酌。近年来，得益于深度学习的发展与兴起，命名实体识别任务在大量训练数据的支持下取得了良好的性能。但是，标注一条 NER 数据的时间往往是文本分类等其他自然语言处理任务的数倍。为了解决数据匮乏的问题，统计机器学习领域最常用手段是数据增强（Data Augmentation）技术。在计算机视觉的相关任务中，常用的数据增强技术包括对图像进行缩放、平移、旋转、白化等操作，可以将一张图片样本扩展成多张图片样本。在语音处理相关任务中，常用的数据增强技术则有时域扭曲、时域遮罩、频域遮罩等，将声波在频域和时域上加入噪声。在自然语言处理中，数据增强在文本分类任务中也有广泛的应用，最具代表性的就是 EDA 方法，其将自然语言数据进行随机的替换、交换、插入、删除。然而，目前没有专门针对命名实体识别这一任务而定制的数据增强技术，现有的数据增强技术对于命名实体识别任务的数据扩展性有限。本文针对基于序列标注的 NER 任务，分别提出了基于 EDA、基于远程监督、基于 Bootstrap 的数据增强方法，来解决命名实体识别任务中的数据匮乏问题。命名实体识别技术作为自然语言理解技术中的重要一环，已经经历了几十年的长足发展，并且在各行各业有着广泛的落地场景，例如金融新闻中的公司机构识别、法律文书中的法律名、人名识别、医疗文本中的疾病名、药物名识别等等。早期的命名实体识别大多是基于规则的方法，其中最具代表性的方法有基于词汇规则的方法、基于短语规则的方法以及基于上下文模板的方法。这类方法需要通过语言学家对命名实体规则进行总结归纳，在某些强规则相关的特定领域文本能够取得还不错的性能。然而，这类方法的缺点也显而易见：人工总结的规则往往泛化性能有限，无法涵盖所有情况。因此，这类方法在大多通用领域文本下的性能较差。近年来，命名实体识别开始采用序列标注的建模方式，即将句子序列输入 NER 模型当中，模型输出等长的标注序列，表示唯一的一组实体识别结果。常见的序列标注法有“BIO”法和“BIOES”法。本文中默认使用“BIO”法，即“B”代表实体的开头，“I”代表实体的内部，“O”代表非实体部分，如图 1 所示。基于序列标注的建模方式，数据驱动的机器学习方法开始被引入命名实体识别任务当中，常见的方法包括基于支持向量机的方法、基于隐马尔科夫模型的方法等。

资源详情

资源评论

0 引　　言

命名实体识别(Named Entity Recognition, NER)旨在通过模型自动地识别

出一段自然文本中所包含的实体, 在金融科技领域有着广泛的应用. 例如, 识

别出时事新闻中的人名、地名、机构名, 能够为后续的金融分析任务提供特征

支持. 由于实体表述十分繁杂多样, 往往无法穷举所有可能的实体(不存在一

个词典能够把所有人名都涵盖起来), 所以命名实体识别是一个艰难的任务.

近年来, 得益于深度学习的发展与兴起, 命名实体识别任务在大量训练数

据的支持下取得了良好的性能. 但是, 命名实体识别任务的数据标注成本很高,

一句话需要标注多个实体, 且往往存在歧义和嵌套的情况, 导致标注时需要详

细斟酌. 所以, 标注一条 NER 数据的时间往往是文本分类等其他自然语言处

理任务的数倍. 现在有许多词嵌入方法能够在大规模的无监督文本上进行预

训练来提高小数据量下模型的泛化性能, 但是其含有的监督信息极其有限, 因

此模型的性能远远没有达到贝叶斯最优误差. 以隐藏单元数为 100 的 Bi-LSTM

+ CRF 模型为例 , 可以根据 “10× 规

则 ”( https://medium.com/@malay.haldar/how-much-training-data-do-you-

need-da8ec091e956)做个简单的数据量估计: 网络中 LSTM 的参数个数约为 2

× 4 × 100

= 80000 (2 个方向的 LSTM, 分别有 4 个门控单元, 对应 8 个权重

矩阵). 因此, 这个网络的样本数量至少要超过 80000 × 10 = 800000 才能够接

近饱和. 然而在现实业务场景中, 命名实体识别任务的样本规模一般都在几千

至几万的量级内, 很难达到“10×规则”所要求的饱和数据量.

为了解决数据匮乏的问题 , 统计机器学习领域最常用手段是数据增强

(Data Augmentation)技术 . 目前 , 数据增强技术在各个统计学习领域里都有

广泛应用. 例如, 在计算机视觉的相关任务中, 常用的数据增强技术包括对图

像进行缩放、平移、旋转、白化等操作, 可以将一张图片样本扩展成多张图片

样本. 在语音处理相关任务中, 常用的数据增强技术则有时域扭曲、时域遮罩、

频域遮罩等

[1]

, 将声波在频域和时域上加入噪声. 在自然语言处理中, 数据增

强在文本分类任务中也有广泛的应用, 最具代表性的就是 EDA 方法

[2]

, 其将自

然语言数据进行随机的替换、交换、插入、删除. 但是, 目前没有专门针对命

名实体识别这一任务而定制的数据增强技术 , 现有的数据增强技术对于命名

实体识别任务的数据扩展性有限.

本文针对基于序列标注的 NER 任务, 分别提出了基于 EDA、基于远程监

督、基于 Bootstrap 的数据增强方法, 来解决命名实体识别任务中的数据匮乏

问题. 第 1 章首先介绍命名实体识别任务的技术背景; 第 2 章详细介绍提出的

基于命名实体识别任务的数据增强方法的完整流程和技术细节; 第 3 章通过实

验来证明数据增强方法的有效性, 并分析模型的优化上界; 最后, 总结全文.

1 相关工作

命名实体识别技术作为自然语言理解技术中的重要一环 , 已经经历了几

十年的长足发展, 且在各行各业有着广泛的落地场景. 例如, 金融新闻中的公

司机构识别, 法律文书中的法律名、人名识别, 医疗文本中的疾病名、药物名

识别, 等等. 随着数据驱动的机器学习、深度学习技术开始兴起, 数据增强技

术成为一项必不可少的前处理步骤, 显著提升了各个任务模型的泛化性能.

1.1 命名实体识别

早期的命名实体识别大多是基于规则的方法, 其中最具代表性的方法有

基于词汇规则的方法

[3]

、基于短语规则的方法

[4]

以及基于上下文模板的方法

[5]

这类方法需要通过语言学家对命名实体规则进行总结归纳, 在某些强规则相

关的特定领域文本能够取得还不错的性能. 但是这类方法的缺点也显而易见:

人工总结的规则往往泛化性能有限, 无法涵盖所有情况. 因此, 这类方法在大

多通用领域文本下的性能较差.

近年来, 命名实体识别开始采用序列标注的建模方式, 即将句子序列输入

NER 模型当中, 模型输出等长的标注序列, 表示唯一的一组实体识别结果. 常

见的序列标注法有“BIO”法和“BIOES”法. 本文中默认使用“BIO”法, 即“B”代表

实体的开头, “I”代表实体的内部, “O”代表非实体部分, 如图 1 所示.

图 1

剩余14页未读，继续阅读

评论收藏

内容反馈

版权申诉

针对命名实体识别的数据增强技术针对命名实体识别的数据增强技术.docx

评论0

最新资源

针对命名实体识别的数据增强技术针对命名实体识别的数据增强技术.docx

评论0

最新资源

相关推荐

ChatGPT技术在命名实体识别中的应用.docx

ChatGPT技术在命名实体识别评估中的应用.docx

ChatGPT技术在命名实体识别中的应用方法.docx

ChatGPT技术与命名实体识别的结合与实体识别技巧.docx

NER（命名实体识别）训练数据集.7z

中文命名实体识别综述.docx

基于ELECTRA-CRF的电信网络诈骗案件文本命名实体识别模型.docx

基于改进的Transformer编码器的中文命名实体识别.docx

融合语义及边界信息的中文电子病历命名实体识别.docx

【Bert + BiLSTM + CRF】实现实体命名识别的数据集

深度学习命名实体识别数据

命名实体识别技术综述

NER中文命名实体识别数据集

金融领域中文命名实体识别研究进展.docx

基于RoBERTa-wwm动态融合模型的中文电子病历命名实体识别.docx

基于BLSTM-CNN-CRF的中文命名实体识别方法.docx

数据库设计规范-命名规范.docx

NER:使用NLTK和Spacy的NLP命名实体识别

命名实体识别数据集.rar

命名实体识别conll 数据集-附件资源

CLUENER 细粒度命名实体识别数据集.zip

CLUENER2020 中文细粒度命名实体识别数据集

数据库设计方法及命名规范.docx

矢量数据的空间分析实验报告.docx

数字孪生的关键技术是什么.docx

中医药与大数据.docx

数据库系统原理第一章习题.docx