融合结构和内容的方志文本人物关系抽取方法.docx资源-CSDN文库

版权申诉

93 浏览量 2022-06-24 17:28:29 上传评论收藏 562KB DOCX 举报

资源推荐

资源详情

资源评论

1 引言

关系抽取是识别出实体间语义关系的重要方法

[1]

,数据的价值不仅蕴含在其丰

富的实体中,更体现在数据实体间的关系上。方志文本中蕴含着丰富的实体和实

体间关系,而其又是重要的历史信息资源

[2]

,对方志信息资源的深度挖掘过程就是

对中国历史、中国文化的传承与保护过程,如何从实体关系角度探索方志信息资

源内部存在的关联性,成为值得深度探索的重要问题。

目前,关系抽取研究已在其他领域蓬勃发展 ,如金融领域

[3]

、生物医学领域

[4,5 ]

、军事领域

[6]

、文化领域

[7]

等,但所用关系抽取方法无法兼顾语料文本的结构和

内容。在方志领域开展的关系抽取研究,所用方法多停留在社会学方法或调查研

究方法上

[8]

,实体间关系的研究深度搁浅于实体表层关联或单一类别粒度中。虽然

方志数量众多,但是多数方志经数字化处理后以古汉字或图片形式存储,可用于关

系抽取研究的标准语料库十分缺乏,且语料构建过程过度依赖人工,可移植性较差。

此外,基于深度学习模型开展的研究多是对语料特征的改造或多种深度学习模型

的融合

[9]

,而且忽略了从多粒度类别角度出发探究深度学习模型的鲁棒性和可移植

能力。

针对上述问题,本文融合方志文本的内容和结构

[10]

,开展关系抽取研究,克服了

方志文本利用难、利用不充分的问题,在微观层面组织方志信息资源,具体贡献如

下：

（1）针对方志资源利用不足,选择关系抽取任务中难度更大的同类型实体关

系抽取,以方志中人物关系为例,融合文本结构和内容完成方志文本中实体和关系

的识别与抽取。

（2）针对方志资源利用难,引入远程监督方法,取代人工标注,构建适用于关

系抽取任务的标准语料库。

（3）针对研究方法可移植性弱,引入深度学习方法,训练出可移植、易部署

的关系抽取模型,大幅度提高关系抽取方法的社会实用价值。

2 研究现状

2.1 关系抽取

中文人物关系抽取是一类特殊的关系抽取任务

[11,12]

,其抽取出的关系三元组可

用于构建中文人物知识图谱。张兰霞等

[13]

利用远程监督方法从新闻网站中提取人

物关系记录,并通过引入双层注意力机制的 Bi-GRU 模型充分利用关系语句的特

征,其研究重点在深度学习模型

[14,15]

的优化上,但实证中所用向量属于静态向量,应

对人物角色变换问题的能力稍显不足。胡欣

[16]

将人物关系抽取研究范围扩大至网

络媒体,将注意力机制增广至多级,但同样使用静态向量表示特征。谢腾等

[17]

则利

用 BERT 模型表征出动态词向量,在引入外部特征“实体类型”这一项上,增强了语

义特征的显式表达的同时局限了研究对象的实体类型需要相异。

刘忠宝等

[18]

构建《史记》历史事件知识图谱,其中重要环节之一就是历史事

件的抽取,其通过关系触发词的方式标注历史事件,将事件抽取问题转化为实体识

别问题。李跃艳等

[19]

将历史事件研究范围增广至汉语文本,研究深度进深至关联

关系层面。王一钒等

[20]

引入逻辑语义学支撑其实体标注思想,但实证研究中却采

剩余14页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3677
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip