没有合适的资源?快使用搜索试试~ 我知道了~
有监督实体关系联合抽取方法研究综述.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 26 浏览量
2022-11-28
20:31:00
上传
评论 1
收藏 1MB DOCX 举报
温馨提示
试读
38页
有监督实体关系联合抽取方法研究综述.docx
资源推荐
资源详情
资源评论
随着大数据时代的到来,人们日常生活中会产生海量的数据,比如新闻报道、
博客、论坛、研究文献以及社交媒体评论等,数据的领域交叉现象突出,有价值
的信息往往隐藏在大量数据中。信息抽取(information extraction,IE)
[1,2,3]
的
目的在于快速高效地从大量数据中抽取有价值的信息。实体关系联合抽取作为
信息抽取的核心任务
[4]
,近年来受到学术界和工业界的广泛关注,实体关系联合
抽取通过对文本信息建模,来自动识别实体、实体类型以及实体之间特定的关
系类型,为知识图谱构建、智能问答和语义搜索等下游任务提供基础支持
[5]
。
传统的流水线方法将实体关系联合抽取分解成命名实体识别
[6,7,8]
和关系抽
取
[9,10,11]
两个独立的子任务,流水线方法先执行命名实体识别任务,再根据命名实
体识别的结果完成关系抽取任务,两个子任务使用的模型相互独立,可分别在不
同的训练集上训练。传统的流水线方法通常会引发以下三个问题:(1)误差
传播
[12]
。命名实体识别子任务产生的误差,在关系抽取子任务中无法得到纠正,
影响关系抽取的结果质量。(2)子任务间缺少交互
[13]
。流水线方法忽略了命
名实体识别和关系抽取两个子任务间的关系,两个子任务之间缺少交互,使得子
任务的信息没有被充分利用。比如实体类型和关系类型之间应存在某种隐含关
系,在识别实 体类型的过程中,关系类型会起 到一定作用,对于识别关系类 型的
过程同样如此。(3)产生冗余信息
[14]
。命名实体识别子任务获得的实体,实体
之间并非都存在某种关系,不存在关系的实体作为冗余信息传递到关系抽取子
任务中,提高了错误率。因此,实体关系联合抽取逐渐受到重视。
本文主要研究有监督实体关系联合抽取,文中也称为联合抽取。联合抽取
通过 建立统一的模型,使 不同的子任务彼此交 互,充分利用子任务中的信息,进
一步提升模型的性能。然而,在实际应用中,联合抽取模型会面临以下几个挑战:
(1)实体嵌套:现实生活中,存在一个实体嵌套另一个实体的情况,同一个
词可能属于不同的实体,比如“天津大学”是一所大学,同时“天津”也是一个地点。
联合抽取模型需要融入更丰富的上下文语义信息才能识别当前实体类型,大量
实体嵌套的情况增加了联合抽取的难度。
(2)关系重叠:同一句子中可以存在不同的关系类型,相同的实体之间可
以存在多种关系类型,不同关系之间也可能包含一些隐藏信息。比如“北京是中
国的首都”,“中国”和“北京”之间存在“包含”和“首都”两种关系类型。联合抽取模
型需要设计不同的抽取策略或复杂的标注方案才能解决此类问题。
(3)数据噪音:日常生活产生的海量数据通常存在大量数据噪音,尤其是
网页、社交平台和媒体评论等环境产生的数据,存在许多特殊符号和不标准表
达等类型的噪音。包含数据噪音的数据难以被充分利用,也增大了联合抽取获
取有效数据的难度。
(4)模型的平衡性:联合抽取的难点是增强子任务间的交互性。简单的
交互难以充分利用子任务的重要信息,降低抽取结果的准确性;复杂的交互会对
子任务进行限制,使得子任务抽取的特征不具备丰富性。联合抽取需要在子任
务特征的丰富性和子任务的交互性间做权衡,以达到最佳抽取效果。
联合抽取的相关工作如下:文献[14]是基于深度学习的命名实体识别和关
系抽取的介绍,但对基于深度学习的联合抽取方法介绍较少;文献[15]对命名实
体 识 别 和 关 系 抽 取 做 了 系 统 全 面 的 介 绍 ,但 未 侧 重 于 联 合 抽 取 的 方 法 ; 文 献
[16,17]着重于研究关系抽取的各种方法,对联合抽取的方法描述较少;文献[18]
综述了基于深度学习的关系抽取方法,并未介绍联合抽取方法;文献[19]侧重于
基于机器学习的各种关系抽取方法,对联合抽取方法的介绍较为简单;文献[20]
与本文的工作接近,但在描述基于神经网络的联合抽取方法时没有进行细致的
分类。本文则针对有监督实体关系联合抽取方法做出了较为详细的分类和介绍。
整体框架如图 1 所示。
图 1
图 1 联合抽取方法分类
Fig.1 Classification of joint extraction methods
本文目 的在于对有监督实体关系联合抽取 的 最新研究进展提供全面深入
的研究综述。具体而言,本文的贡献在于:
(1)根据特征的不同提取方式,对联合抽取进行了细致的分类,并详细阐述
了不同类型下联合抽取方法的特点。
(2)介绍了联合抽取常用的数据集及评价指标,在不同数据集上比较了各
个方法间的性能差异并进行分析。
(3)基于最新的研究进展,总结联合抽取面临的多种挑战性问题,指出未来
的主要研究方向。
1 预备 知识
本章给出实体关系联合抽取需要的预备知识。
命名实体识别:命名实体的概念在 1995 年 MUC-6 会议上被首次提出,命
名实体是指能够从元素集合中识别具有相似属性元素的单词。命名实体识别即
识别文本中具有特定意义的实体,例如人名、地名和机构名等。已知实体类型
集合 E,给定输入句子 S={w1,w2,⋯,wn},命名实体识别输出 S 中的所有实体及实
体类型 wi,wj,ek,其中 ek∈E, wi 和 wj 分别表示实体的起始单词和结束单词。
关系抽取:关系抽取任务于 1998 年 MUC-7 会议上被首次引入,通过填充
关系模板槽完成实体间三类关系 Location_of、Employee_of 和 Product_of 的
抽取。关系抽取通常在实体信息已知的情况下进行,即给定实体对 h,e1,t,e2,其
中 e1、 e2 分别表示 h 和 t 的实体类型,关系抽取输出 h 和 t 之间存在的关系
类型 r。
实 体关 系 联合 抽 取: 已 知关 系 类型 集 合 R、 实 体 类 型 集 合 E,给 定 句子
S={w1,w2,⋯,wn},实体关系联合抽取通过建立统一的模型,输出 S 中的所有关
系五元组 h,e1,r,t,e2,其中 r∈R, e1∈E, e2∈E, e1 和 e2 分别表示 h 和 t 的实
体类型,对于没有预先给定实体类型的数据集,实体关系联合抽取输出句子 S 所
有的关系三元组 h,r,t。
当前主流的联合抽取方法主要基于各类神经网络模型,以下介绍联合抽取
常用的神经网络模型。
循环神经网络
[21]
:循环神经网络擅长处理带有时序信息的序列,其在每个
时刻 t 都更新自己的“记忆”,难以解决长期依赖与梯度消失的问题。长短时记忆
网络(long short-term memory,LSTM)
[22]
于 1997 年被提出,是循环神经网络
的一种变体。LSTM 用特定的学习机制来聚焦并更新信息,能够解决长期依赖和
梯度消失问题。门控循环单元(gated recurrent unit,GRU)
[23]
对 LSTM 进行改
进,使用更少的门提升了计算效率。
图卷积网络(graph convolutional network,GCN)
[24]
:研究者们将诸如卷
积神经网络等传统神经网络结构扩展到图数据中,使用卷积层提取图中节点的
特征信息,将当前节点的特征传递至相邻节点,通过叠加 GCN 层学习到图中的
节点表示。GCN 的输入是一个图,图通常由 n×d 的节点嵌入矩阵和 n×n 的图
结构表征矩阵(如邻接矩阵)来表示,最终输出 n×d 的矩阵,表示每个节点的特
征信息。
预训 练模型:预训练模型是已经在大量数据集上 训练并保存的网络模 型。
对于具体的任务,可以在预训练模型上微调,实验也证明预训练方法是有效的。
在自然语言处理(natural language processing,NLP)领域,预训练模型 BERT
(bidirectional encoder representations from transformers)
[25]
展现了优秀的
性能。BERT 是一种基于 Transformer
[26]
的多层双向语言表征模型,由 n 个相同
的 Transformer 块叠加而成,通过点积注意力的方法更深层次地学习到单词的
特征信息。
表 1 给出了联合抽取常用符号描述。
表 1 常用符号描述
Table 1 List of notations
符号
描述
S
给定的文本句子
R
预先定义的关系类型集合
E
预先定义的实体类型集合
w/wi
句子中的单词/第 i 个单词
r
关系类型
e
实体类型
h
头实体
t
尾实体
e
嵌入向量
h/hi
隐藏状态向量/ i 时刻隐藏状态向量
W/Wi
参数矩阵/第 i 层的参数矩阵
b/bi
参数向量/第 i 层的参数向量
新窗口打开| 下载 CSV
2 基于 特征 工程 的联 合抽取
特征工程是将原始数据转化为表达问题本质特征的方法,将特征工程获得
的特征运用到模型中可以提高模型性能。基于特征工程的联合抽取,需要根据
数据特点设计特征
[27,28]
,当满足特征函数的条件时,该特征函数会被触发。基于
剩余37页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3676
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功