【免费】WeiboNER标签含义1资源-CSDN文库

需积分: 0 156 浏览量更新于2022-08-04 收藏 1.07MB PDF 举报

在自然语言处理（NLP）领域，命名实体识别（NER）是一项至关重要的基础任务，其目的是从文本中识别出具有特定意义的实体，比如人名、地名、组织名等。对于中文社交媒体文本的NER任务，由于中文语言特有的特点和社交媒体文本的非正式性、快速变化特性，这一直是一个富有挑战性的研究领域。中文文本的特点主要体现在词语边界不明确、词义的多义性以及复杂实体结构等方面。这些特性大大增加了中文NER的难度。传统方法依赖于大量的语言学规则和手工设计的特征，而在面对社交媒体这样快速更迭、风格多变的语言环境下，传统方法的效果往往不甚理想。为了应对这些挑战，近年来的研究逐渐转向了利用外部知识和联合训练的策略，旨在通过外部信息的补充来提高NER的性能。深度学习技术的引入为中文社交媒体命名实体识别带来了新的可能。特别是双向长短时记忆网络（Bi-LSTM）模型在捕捉序列上下文信息方面表现出色，适合处理文本中词语序列这类序列数据。然而，仅凭Bi-LSTM有时难以充分利用文本中长距离的依赖关系，这在一定程度上限制了模型性能的提升。为了解决这一问题，研究者提出将自注意力机制（Self-Attention Mechanism）与Bi-LSTM模型相结合。自注意力机制使得模型能够在序列的不同位置的词之间建立动态的权重关系，使得模型可以动态地关注到对识别实体至关重要的上下文信息。这种机制有效地处理了长距离依赖问题，提升了模型捕捉文本全局信息的能力。在中文社交媒体文本的NER任务上，研究者通过在Weibo NER公开语料上进行实验，验证了这一方法的有效性。实验结果显示，即便不借助外部知识和联合训练，该方法也能达到相对较高的F1值（58.76%）。这一结果证明了自注意力机制能够显著提升社交媒体文本中NER的精度，同时减少了对预训练知识和额外资源的依赖。这不仅提升了识别准确率，还为中文社交媒体信息处理提供了新的思路。本文的研究成果为中文社交媒体命名实体识别带来了新的突破，特别是在减少外部资源依赖方面，这意味着我们可以利用更少的外部知识和更简单的训练策略来实现较为精确的NER。这不仅提高了效率，还降低了处理社交媒体文本时的门槛。尽管目前的研究取得了一定的进展，但中文社交媒体NER任务仍存在许多未解决的问题，比如如何处理更加复杂的文本结构、如何应对新出现的实体类型等。随着深度学习技术的不断进步和更多创新方法的提出，相信在不久的将来，中文社交媒体NER的准确度和鲁棒性将得到进一步提高。本文通过对深度学习模型的改进和创新策略的运用，有效地提升了中文社交媒体中命名实体识别的效果。未来的研究可以在这个基础上继续探索，不断优化和细化模型，以期达到更高的性能。同时，也应该注意到模型的泛化能力和适应新数据集的能力，以及在真实世界应用场景中的有效性和稳定性。只有这样，才能真正推动中文社交媒体命名实体识别技术的发展，更好地服务于信息抽取、知识图谱构建和问答系统等多个领域。

第 ** 卷第 * 期中文信息学报 Vol. **，No. *

201* 年 * 月 JOURNAL OF CHINESE INFORMATION PROCESSING ***. ，201*

收稿日期：2017-03-16；定稿日期：2017-04-26

*通信作者：kongfang@suda.edu.cn

基金项目：国家自然科学基金（61472264）；人工智能应急项目（61751206）；国家重点研发计划子课题（2017YFB1002101）

文章编号：1003-0077（2017）00-0000-00

融入自注意力机制的社交媒体命名实体识别

李明扬，孔芳

（苏州大学计算机科学与技术学院，江苏苏州 215006）

摘要：针对中文社交媒体命名实体识别的结果远不如传统领域的识别效果，以及近年来中文社交媒体命名实体识

别研究逐渐倾向于使用外部知识与联合训练，而忽视了进一步提取文本中的特征，该文提出了一种基于深度学习、结

合双向长短时记忆和自注意力机制的命名实体识方法。在 Weibo NER 公开语料上的对比实验表明了我们所提出方案的

有效性，实验表明在不使用外部资源和联合训练的情况下，



值为 58.76%。

关键词：命名实体识别；中文社交媒体；自注意力机制

中图分类号：TP391 文献标识码：A

Combining Self-attention Mechanism for Named Entity Recognition in Social

Media

LI Ming Yang

, KONG Fang*

(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China)

Abstract: For the problems of the result of named entity recognition for Chinese social media is much less than the tradi-

tional field, and Chinese social media NER in recent years gradually tend to use external knowledge and jointly training, thus

ignoring the further extracting features from the text. The article puts forward a method of named entity recognition based on

deep neural networks that combines a bi-directional long short-term memory with self-attention mechanism. Comparative

experiments on the Weibo NER released corpus show the effectiveness of our proposed approach, and show that without using

external knowledge and transfer learning, our method achieved 58.76% in 



-score.

Key words: Named Entity Recognition; Chinese Social Media; Self-attention Mechanism

0 引言

命名实体识别（Named Entity Recognition，

NER）是指识别出非结构化文本中出现的包括人

名、地名、组织机构名等实体的指称。作为信息

抽取的核心技术之一，命名实体识别在依赖信息

抽取技术的诸如知识库自动构建、问答系统中有

广泛的应用场景和应用价值。国外对于英文命名

实体识别的研究开始的比较早，并且由于英文命

名实体识别只需考虑词本身的特征而不涉及分词

问题，识别的难度相对较低。相反，由于中文内

在的特殊性，如单元词汇边界模糊，实体结构复

杂、表现形式多样、缺乏显式的单词边界和其他

提示命名实体的线索等，增加了中文命名实体识

别的难度。

目前，为了减少对语言学知识的依赖和避免

繁琐的特征工程，命名实体识别逐渐由使用传统

的统计学习方法转移到应用深度学习的方法，借

助搭建多层神经网络结构来学习文本中潜在的相

关信息。

2 中文信息学报第 2*卷

近年来，针对社交媒体的中文命名实体研究

成为热点。社交媒体的中文命名实体识别主要有

三个难点：①相对于英文，中文缺乏显式的词汇

边界和固有的定冠词，专有词汇也没有拼写变化。

②社交媒体上发布的往往是不规范的短文本，新

词、错词的出现更为频繁，网络用语、表情等噪

音更多。③语料规模更小（例如本文所使用的

Weibo NER 语料的训练集是 MSRA 语料训练集的

1/30）。因此如何在规模较小、混杂很多噪声的语

料上尽可能地获取更多有效特征来提升中文社交

媒体命名实体识别的性能具有很重要的研究价值。

我们证明，在双向长短时记忆网络-条件随机

随机场（LSTM-CRF）序列标注模型基础上，加

上多头自注意力机制，在多个不同子空间捕获上

下文相关信息，从而理解句子结构，能够提升不

规范文本的实体识别标注性能。后续章节中统一

使用 LSTM-Self_Att-CRF 代表本文提出的方法。

在不依赖外部资源和联合学习的实验配置下，

LSTM-Self_Att-CRF 方法取得的



值为 58.39%，通

过对最后结果的分析，我们发现我们的模型识别

出了更多训练集中未出现的实体。

本文后续内容安排如下：第一节介绍中文社

交媒体相关的研究，第二节详细介绍基于

LSTM-Self_Att-CRF 的中文社交媒体命名实体识

别模型以及引入的 Self-Attention 机制，第三节给

出实验过程及实验结果的详细分析，第四节是结

论。

1 相关研究

中文社交媒体命名实体识别的相关工作专注

于面向规模较小的标注语料进行有效的监督学习，

现有的中文社交媒体的命名实体识别方法大都是

在传统的命名实体识别方法上：①引入外部资源

（字典、知识库、维基百科等）；②将相关任务（分

词、词性标注）进行联合训练，解决包含噪声的

文本短语切分性能下降对命名实体识别的影响；

③使用迁移学习将训练完成的传统领域的命名实

体识别模型放入到社交媒体领域中。详细的相关

研究如下。

Peng and Dredez

[1]

在 2015 年首先发布了一个

中文社交媒体语料库：Weibo NER corpora，用于

命名实体实体的相关研究，随后他们提出了将基

于“字+位置”的 embedding 与 NER 任务联合训

练的模型。Peng and Dredez

[2]

将外部资源和联合训

练相结合，在 2016 年提出了将中文分词表征作为

特征的方法从而来提高命名实体识别的性能。

He and Sun

[3]

在 2016 年提出把句子级别的得

分（F-score）放入损失函数中，实验结果表明在

不使用外部资源的情况下取得了较高的准确率

（Precision），但是召回率（Recall）较低。之后，

He and Sun

[4]

在 2017 年又提出了使用跨领域数据

集的半监督联合模型，实验表明提升了识别性能，

但是未能超过 Peng and Dredez在 2016年提出的模

型。

本文从文本自身出发，在不使用外部资源、

不进行多任务联合训练的情况下，在使用传统的

Bi-LSTM+CRF 模型中加入 Self-Attention 机制进一

步捕获文本的特征，从而提高社交媒体的中文命

名实体识别的性能。

2 命名实体识别框架

与大多数实体识别方法相同，本文也将实体

识别任务转化为一个序列标注问题，实体开头的

单元标注为，实体内的单元标注为，其他的标

注为。为了避免汉语分词工具在不规范文本上

的性能下降对实体识别任务的错误传播，我们效

仿 He and Wang

[5]

等人的工作，以字的粒度进行命

名实体识别。图 1 给出了 LSTM-Self_Att-CRF 模

型，该模型包含三个部分：①字粒度的表示层②

基于 BiLSTM 的上下文的序列编码层 ③融入自注

意力机制的 CRF 解码层。

|| ||

Embedding

RNN

Concatenation

Neural net

Self_Attention

forward

backward

新浪微博

B-ORG.NAM I-ORG.NAM I-ORG.NAM

CRF CRF

Sigmoid funcition

Gate

图 1 LSTM-Self_Att-CRF 模型

2.1 字的分布式表示

在编码阶段，原始数据通过查找字向量表转

化为字向量序列。其中，本文所使用的字向量表

包括 3103 个常用汉字和一些特殊字符（如数字、

标点等）以及它们的分布式向量表示。该字向量

表使用了 word2vec

[6]

工具，将无标签中文

Gigaword 数据集训练成相应的数值向量表。

剩余7页未读，继续阅读

资源推荐

资源评论

不知者无胃口

粉丝: 32
资源: 328

Weibo NER标签含义1

最新资源

Weibo NER标签含义1

WeiboNER_微博NER_中文NER_

weiboNer.zip

weibo命名实体识别数据集的预处理。weiboNER pretreatment.zip

ResumeNER_resume_命名实体识别_ner_

微博语料库WeiboNER.zip

中文命名实体识别ner数据_resume_bio格式

面向小样本命名实体识别的数据增强算法改进策略研究数据集.zip

lexmachina:使用法律和正义的主动学习进行NER标签

MSRA（NER）.zip

NER-BERT-pytorch-master_ner_

如何利用NER技术，炼造出地址实体识别的火眼金睛

Python实现NER算法

Python系列：NLP系列二：命名实体识别（NER）、用深度学习实现命名实体识别（NER）

Davlan/bert-base-multilingual-cased-ner-hrl NER命名实体识别模型

中文实体识别ner数据集（包含原始数据和经过处理后的数据）.zip

MSRA-NER 中文命名实体识别

Python-使用谷歌BERT做CoNLL2003NER

NER_survey.pdf

NER中文命名实体识别数据集

ChineseNER-master_ner实体识别_源码

msra Ner+ 分词

NER语料集.zip

Python-使用预训练语言模型BERT做中文NER

Python-LstmcrfLatticeCRFbertner及近年ner相关论文follow

CRF-NER模型

基于Pytorch框架的中文命名实体识别(NER)模型，包含lstm和Bert两种模型的实现.zip

china-people-daily-ner-corpus.tar.gz

基础pytorch和bert的ner模型，实现断句，标点符号预测.zip

Chinese-Literature-NER-RE-Dataset-master.zip_ner_中文命名实体识别_命名实体_命

中文实体关系抽取数据集 Chinese-Literature-NER-RE-Dataset

最新资源