下载  >  开发技术  >  其它  > 论文研究-基于多实例多标签BLSTM神经网络的中文关系抽取 .pdf

论文研究-基于多实例多标签BLSTM神经网络的中文关系抽取 .pdf 评分:

基于多实例多标签BLSTM神经网络的中文关系抽取,唐慧,欧阳柳波,最近,深度学习模型已经成为关系提取的最先进方法,然而关于中文关系提取的研究工作却很少。本文针对中文关系抽取面临的词语之间无�
国利技论文在线 http://www.paper.edu.cn 本文屮提出了一种基于多示例多标签双向长短时记忆网络模型(ATT+MIML+ BLSTM)用 于远程监督中文关系抽取。使用原始中文句子作为输入,BLSM和字级注意力层用于获取每 个句子中的重要语义信息,然后通过句子级注意力获得最终句子向量表示。此外,使用多标签 损失函数来处理重叠关系。针对缺乏中文数据集,我们基于远程监督思想,利用复旦知识工厂 的CN- DBpedia获得确定实体对,在 SogouCs20122新闻文本语料中进行对齐,构建了一个中 文标注数据集。将本文提岀方法在此中文数据集以及英语基准数据集上进行评估。结果表明, 该模型适用于中文文本中的关系抽取,具有良好的性能。 文的贡献总结如下:(1)将屮文字向量作为输入,避免将分词噪音引入关系抽取。(2) 我们的模型能够充分利用句子中每个字的信息以及具有相同实体对的所有句子信息,并且能够 处理实体对的重叠关系。(3)与现有的方法在中文数据集和英文基准数据集上进行实验对比, 证明我们的模型适用于中文且取得了不错的效果。 1相关工作 多年来,已经提出了很多用于关系抽取方法,主要分为三类:监督、半监督和无监督方 法。监督方法将关系抽取作为分类仼务,并且与其他方法相比通常表现岀更好的性能。然而, 监督方法需要大量标记数据,这非常耗时耗力。远程监督可以通过自动生成标签数据解决这个 问题。但是,远程监督会导致错误的标签问题。文献将远程监督模型化为多实例单标签问 题。文献和文献⑦指出实体之间可能存在多种关系,将关系抽取形式化为多实例多标签学习 问题。 最近,随着深度学习的出现,许多学者开始使用深度学习来自动学习特征。在NLP中, 深度学习方法主要基于学习每个词语的分布式表示,也称为词向量1。文献17提出了一种用 于关系分类的卷积神经网络。他们的方法有效地解决了传统方法的特征错误积累的缺点。此 外,文献∏8将至少一个多实例学习方案与神经网络模型相结合,在远程监督数据集上进行 实验。文献[1!使用神经注意机制结合 BLSTM来获得句子中的重要语义信息。该模型不依赖 于NLP工具或词汇资源来获取特征,并且实现了良好的关系分类性能。文献[14研究表明在远 程监督的数据上,建立句子级注意力机制用于动态计算多个实例的权重可以得到很好的效果。 文献20]使用跨句子最大池来选择不同句子屮的特征,然后将最重要的特征聚合到每个实体对 的向量表示中,并且考虑了实体对多标签的问题。文献[21]结合了多个互补模型来改进关系抽 取,并介绍了一个新的远程监督数据集,消除了所有先前基准薮据集中存在的测试数据噪声。 文献22将强化学习应用于远程监督的关系提取。知识库中的相关辅助信息也已被用于关系提 取23,24 在中文关系抽取的研究中,通常提取词法和句法特征向量,使用SVM作为分类器②5。文 献26和文献②7认为基于核函数的中文关系抽取方法取得了显着的改进。然而,缺少公开的中 文数据集阻碍了深度学习方法在中文关系提取中的发展。 Ihttp://kw.fudan.cdu.cn http://www.sogou.com/labs/ 山国利技论文在线 http://www.paper.edu.cn 句子级恃征 多买例选择江 多标签分类 蒋介石,宋美龄 1927年月,薪介石向宋美提出求婚: BLSTM HI Relation 薪介石去世后,末美脸独居美国,平静度日 BLSTM H Relatian 日记还遞露蒋介石与水美龄的夫要关系出于具 感情,而非如外界猜测的政治婚姻 Hr s 图1:用于远程监督关系抽取的AIT十MINL+ BLSTM模型框架图 目前,关系抽取的研究和实验主要集中在英文上。本文聚焦于远程监督中文关系抽取,结 合前人工作的优点,提出了一种多示例多标签 BLSTM模型。该模型既可以获得字和句子丰富 的语义信息,又可以处理重叠关系。 2模型 本节详细介绍我们所提出的ATT+MIML+ BLST模型。如图1所示,本模型框架主要 有3个关键部分: (1)句子级特征:将给定两个实体的句子输入 BLSTM模型,并使用字级注意力对 BLSTM 每一个时步的输出做一个加权,将每个时步的字级特征合并为句子级特征向量。 (2)多实例注意力层:利用句了级注意力给不同的语句赋予不同的权重,隐式地摒弃 些噪音语句。 (3)分类器:使用多个分别对应一类关系的二分类函数做多标签分类,损失函数采用多 标签损失函数。 2.1句子级特征 句子级特征旨在为每个句子构造分布式表示。如图2所示我们首先将句子中的中文字符转 化为实值向量。然后通过 BLSTM提取句子的高级特征。最后字级注意力对 BLSTM每一个时 步的输出做一个加权,将每个时间步的字级特征合并为句子级特征向量。 2.11输入表示 每个句子的输入由两种特征组成: 山国利技论文在线 http://www.paper.edu.cn 输出层 H (句子级特征) 宁注意力层 h BLST层 输入表示层 字向量 字向量 字向量 位置向量 位置向量 位置向量 图2:句子级特征表示详细结构图 字向量:中文的词语由字组合而成,组合的复杂度高,而且词语之间没有明显的分割符。 文献(28通过实验说明了字特征比词特征更适用于中文关系抽取任务。受此启发,本文采用字 特征,避免将分词噪音引入关系抽取。模型输入的是中文句子中的每个字,类似输入英文句子 的每个单词。因此,给定由m个汉字组成的句子s={x1,x2,…,xm},我们通过查找预先训练 好的嵌入矩阵V∈R4mx(其中,d是字向量的维度,V是词汇表大小)将字转换为实值向 量 位置向量:句子的结构信息对于关系抽取有非常大的影响。而只通过字向量是无法利 用句子的结构信息。因此,利用位置c1和e2的相对距离构造2个不同的l维位置向量。我 们将所有的字向量与位置向量相连,得到一个向量序列w={w1,w2,…,wm}(其中w∈R d=dl+2×dn),并将其作为输入表示 212 BLSTM层 RNN模型常用来处理序列标注问题,能够充分利用整个文本序列的信息。然而,RNN在 连续时间内不断叠加输入词语,导致句子中靠前的词对当前词的影响变得微弱,但是这个两个 词之间可能存在依赖关系。为了更有效地捕获长句的长距离词之间的语义信息,文献[12提出 了一种LSTM模型。通过构造用于存储历史信息的特殊存储单元,每个状态保存先前的输入信 息,并且前面的词语影响后续输出。并在近期被 Graves进行了改进和推广2。 国利技论文在线 http://www.paper.edu.cn 在LSTM屮,遗忘门决定了丢弃细胞状态屮的信息,该门有三个输入,x是当前时间步 的输入,h1-1是前一个LSTM单元的输出,c-1是前一个单元的记忆 ft-o(WxfXt+Wnfht-1+WcrCt-1+be 其中,Wxf、Wn、W、b是权重矩阵 输入门决定将要吏新什么信息,与遗忘门有同样的输入: it=o(Wxixttwhiht-1+Waict-1+bi) 其中,Wx、Wn、W、b是权重矩阵。 然后创建个会被加入到状态中的新候选值向量c: 't= tanh(Wxext+Whcht-1+WceCt-1+be) 其中,Wx、Wn、Wa、b。是权重矩阵。 更新当前细胞状态ct: +fc 最后,由输出门o控制多少信息应该输入到下一个LSTM单元。 Ot=oWxoxt+ Whoht-1+Wcoct-1+bo) (5) ht= Ot tanh (ct) (6 其中W3。、Wh。、W、b。是权重矩阵。 ISTM的基于正序时间只能很好地考虑历史信息。而某时刻t的输出不仅依赖于前面的单 词,也依赖于后面的单词。为了弥补这个缺陷,我们运用 BLSTM可以让模型从两个方向来 学习,充分学习每个单词的上下文信息。由图2可知, BLSTM层包含正向和逆向LSTM网络, 第个字从 BLSTM层得到的输出由正向和逆向输出通过逐元素和来组合而成 h:=h2①h 2.13字级注意力层 注意机制是 Treisman提岀的模拟人脑的模型3。最近,基于注意力的模型引起了许多研 宄者的兴趣,并被广泛应用于图像处理和语音识别等各个领域31,32,虽然可以通过 BISTM 层获得句子的高级语义表示,但是由于句子中的一些字对于句子语义的重要性可能不同。参 照文献凹20]的方法,我们使用字级注意来获得句子中的重要信息并提高句子表示的准确性。将 由 BLSTM层输出的向量序列H={h1,h2,…,hm}进行加权,得到句子的最终表示。 首先应用非线性函数 N;= tanh(hi) (8) 国利技论文在线 http://www.paper.edu.cn 然后计算句子中的字的权重a softmac(w ni) (9 其中,环是训练的参数 句子的向量表示?由N加权和得到 ∑a 最后,对应用非线性函数得到句子的最终表示: h*=tanh(r) 22多示例注意力层 远程监督会产生有大量噪音(被错误标注的数据),直接使用有监督的方法进行关系分类, 效果很差。为了解决错误标签问题,本文采用文献14提出选择注意力机制在多个示例上构建 句子级关系注意力对句子向量进行加权,动态弱化有噪音示例的权重。 假定有一个包含n个具有相同实体对句子的集合S,将集合S表示成具有实值向量,即S= Hn},其中H为上一节得到的句子的表示。首先,计算出一个句子H2对于对应 关系的匹配程度。 D;-H*.4·l 2 其中,A是表示权重的对角矩阵,l是代表着该关系的向量。这样一来,D的大小取决于H在上 的映射的大小,与该实体关系更加密切的句子可以取得更大的取值。进一步得到权重 softwar (D;) (13) 那么对于句子集合S,可以将其计算为集合内所有句子的加权和 ∑H (14 23多标签关系分类 本文将远程监督形式化为多实例多标签学习问题,上一节已经解决了多示例问题。在本节 中,我们将处理实体对的重叠关系。 对于上一节得到的句子集合向量S,再通过一层网络得到o MS+b (15) 其中,M是所有关系向量所组成的权重矩阵,b是偏置向量。这样o表示对于每个关系的置信 度分数。然后不是使用 softmax函数做多标签分类,而是使用二分类函数做多标签分类,计算 每个关系的概率,然后超过某个阈值,就认为该关系标签是准确的: Pi= sigmoid(o;), i=1, 2,...,k (16) 国利技论文在线 http://www.paper.edu.cn 其屮,k表示关系标签的个数。设定二进制标签向量y表示实体对之间的真实关系集合,其中1 表示集合中真正关系,0则表示不是真正关系。最后,我们采用 sigmoid的父叉熵函数作为损失 数 loss=-2yilog(p:)+(1-yi)log(1-p2 (17) 其中,v∈{0,1}是标签i的真值 本文以端对端的方式训练模型。使用Adam3作为优化损失函数,Adam是一种可以替代 传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。学习率 使用缺省值0.001。在测试时,根据给定实体对,所提出的模型选择概率超过0.5的关系作为预 测标签。在实施过程中,我们在 BLSTM层采用了 Dropout3来防止过度拟合。 3实验 在本节中,我们基于远程监督思想构建了一个中文人物关系教据集,在此数据集上进行实 验证明我们的模型适用于中文且取得了不错的效果。为了更全面评估我们的模型,我们又在真 实英文数据集上进行实验,验证基于注意力机制的神经网络架构下多标签学习的模型有效性。 3.1在中文人物关系数据集上实验 3.1.1构建数据集 基于远程监督思想,利用现有的知识库获取具有确定关系的实体对,然后冷实体对与文本 语料库进行对齐,将文本语料库中出现对应的两个实体的句子作为训练样本。具体构建步骤如 下: (一)获取具有确定关系的实体对。 由复旦大学知识L厂实验室开发和维护的大型结构化结构化百科CN- DBpedia是中国最早, 最大的开放百科巾文知识图谱。我们设置种子名称列表,使用复旦知识工厂提供的免费API获 取相应的个人关系,然后将未包含在实体列表中的实体添加到列表中,并反复迭代。最后确 定8种实体关系(夫妻、亲子、合作、朋友、师生、情侣、兄妹、其它)。 (二)将实体对与中文文本语料库中的句子对齐。 屮文文本语料选用出自搜狗实验室的搜狐新闻数据集( Sogoucs2012),这是最全面的中 文文本语料库之一。通过对文本语料库进行数据预处理获得纯文本。然后与笫一步获得的实体 对关系对齐,以获得包含实体对的语句。最后得到共244623个句子。我们按照9:1的比例划分 训练集和测试集。训练集包含220,160个句子,测试集包含24,463个句子。 3.12评价指标以及实验设置 参照前人的工作14,18,我们使用 Precision- Recall曲线和P@N度量来评估每个模型的性 能 山国利技论文在线 http://www.paper.edu.cn PCNA ATT+CNN ATT+MIML+BLSTM 图3:本模型与三种基线方法在中文数椐集上实验结果 表1:本模型与其他模型的PαN比较结果 PCNn BGWa ATT+CNn ATT+MIML+BLSTM P@1000.87 0.91 0.95 0.97 P2000.8450.885 0.93 0.955 P3000.8170.85 0.923 0.946 Mean0.8440.882 0.934 0957 本文采用的参数设置如下:字向量维度是100(在中文维基百科语料库上通过word2vec 工具°训练得到);位置向量维度是5;批大小是64,句子向量维度是230, Dropout概率是0.5, adam优化器的学习率采用省默值0.01 我们选择以下三种最新的具有代表性并优于传统方法的神经网络模型作为基线:(1) PCNN:一个将卷积神经网络与分段最大池化结合的模型S。(2)ATT+CNN:一个将卷积神 经网络与句级注意力机制结合的模型14。(3)BGWA:个将门控神经网络字级注意力机制 以及分段最大池化结合的模型21 3.1.3实验结果及分析 图3中的曲线表明,我们的模型进行中文关系抽取时,相较于其他模型有相对较高的 准确率和召回率。换句话说,在相同召回率对的条件下,使用ATT+MIML+ BLSTM进行 中文关系抽取得到的准确率要高于其他模型。我们观察到引入注意力机制的神经网络方 法(ATT+CNN、BGWA、ATT+MIML+ BLSTM)的PR曲线明显高于普通的神经网络方 法PCNN。可知注意力杋可以提高模型的性能。我们的模型优于同样采用句子级注意力 的CNN模型,说明结合了字注意力的 BLSTM能获得更加丰富的语义信息,并且考虑多标签问 题可以提高模型性能。表1显示了使用P⑩N度量的结果。与图1一样,我们的方法整体优于其 https://code.google.com/p/word2vec/ 山国利技论文在线 http://www.paper.edu.cn ATT+CNN . ATT+MIML+BLSTM 0. 1.000050100150.200.250.300.3540 图尘:本模型与其他模型在英文数椐集上的对比结果 他方法。而且当N越小,我们的方法准确率高。可以知道神经网络联合注意力机制以及多标签 分类可以提高关系抽取的准确性 3.2在英文基准数据集上实验 为了更仝面地评估我们模型的性能,我们对 Riedel在2010年提出的英语数据集进行了对比 实验。该数据集是关系抽取的许多性能测试任务中很流行的基准数据集,包含53种关系(包 括“NA”,表示实体对之间没有关系)。本文使用2005-2006年的句子共522611个实例作为训练 集,2007年的句子共17448个实例作为测试集 输入为词向量,并且除∫词向量维度为50以及批大小为50以外,超参数设置与表1一致。 同样采用上一节的评价指标。 我们选择对于英文关系抽取重要的4个方法与所提模型进行对比。他们是 Mintz的方 法(称为 Mintz), Hoffmann的方法(称为 Multir), Surdeanu的方法(称为MIML)7, CNN+ATT以及BGWA。 图4清晰地显示了我们的模型(ATT+MIML+ BLSTM)的PR线在其他模型之上,因此我 们的模型不仪优于基于特征的传统方法也优于最新的神经网络模型。由于我们构健的中文数捃 集的薮据规模比英文基准数据集小,且存在的噪音数据量不同,所以在两个数据集上的实验结 果存在小误差。但是我们仍能从中得到我们的模型优于其它模型,尤其是用于远程监督的中文 关系抽取。 4结论 本文提出了一种适用于中文关系抽取的基亍多实例多标签的神经网络模型,避免了将中文 分词错误引入,既能够获得句子丰富的语义信息,又考虑了实体对的多关系问题。在基于远程 监督思想构建的中文数据集库中进行实验,验证了融合了注意力机制以及多标签学习的神经网

...展开详情
2019-08-18 上传 大小:1009KB
举报 收藏
分享