一种用于实体关系三元组抽取的位置辅助分步标记方法.docx
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
一种用于实体关系三元组抽取的位置辅助分步标记方法 本文提出了一种新的关系抽取方法,旨在解决实体关系三元组抽取中存在的挑战,例如单实体重叠和实体对重叠问题。该方法通过结合位置感知信息和多重位置感知信息来提高抽取效果,并使用注意力机制优化编码的共享方式。实验结果表明,该方法在中文公开数据集DuIE上取得了最佳抽取结果,并通过消融研究证实了各辅助模块的有效性。 在关系抽取领域中,传统方法包括移植性较差且成本高昂的人工构造语法及语义规则来进行模式匹配的方法、灵活性差且局限性大的词典驱动方法以及比较复杂的基于本体的方法。这些方法能够处理的文本规模比较小,在具有复杂词法和句法的中文领域更是成效甚微。 深度学习方法则能够自动提取特征,减少对人工的依赖,且具有良好的泛化能力,能够用于抽取大规模文本数据。基于深度学习的关系抽取任务根据数据集标注量级的差异分为有监督和远程监督两种。本文研究的有监督范畴下深度学习抽取方法主要包括流水线学习和联合学习。 流水线学习方法是在已完成实体识别的基础上直接进行实体间关系的抽取,这两个过程彼此独立,先后串联,最后将实体关系三元组作为预测结果输出。Socher 等[2]于 2012 年首次提出基于 RNN 模型进行关系抽取的方法,而后 Hashimoto 等[3]又提出基于句法树的 RNN 模型,通过为重要短语加权并引入词性标签、短语类别等附加特征的方式实现了效果提升。 Zeng 等[4]于 2014 年首次使用 CNN 提取词语和句子级的特征,免去复杂的预处理直接将词向量作为初始输入,最终通过隐藏层和 Softmax 层进行关系分类。2015 年,Santos 等[5]提出一种新的排名损失函数,能够有效区分关系类别。Wang 等[6]提出了一种依赖双层注意力机制捕获所需特征的 CNN 架构并引入一种新的成对损失函数。 中文方面,孙建东等[7]提出一种结合支持向量机(Support Vector Machine,SVM)和 CNN 的算法;高丹等[8]采用一种结合了改进核函数的 CNN 模型,在法律领域文本中取得了可观的效果。2015 年,Xu 等[9]提出融合最短依存路径的 LSTM 网络模型进行关系抽取。同年,Zhang 等[10]提出了 Bi-LSTM 模型,结合前向和后向信息捕捉语义依赖进行关系抽取,取得了优异效果。 本文提出的一种用于实体关系三元组抽取的位置辅助分步标记方法,能够更好地解决实体关系三元组抽取中的挑战,提高抽取效果,并具有良好的泛化能力和应用前景。
剩余12页未读,继续阅读
- 粉丝: 4459
- 资源: 1万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助