没有合适的资源?快使用搜索试试~ 我知道了~
融合结构和内容的方志文本人物关系抽取方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 93 浏览量
2022-06-24
17:28:29
上传
评论
收藏 562KB DOCX 举报
温馨提示
试读
15页
融合结构和内容的方志文本人物关系抽取方法.docx
资源推荐
资源详情
资源评论
1 引言
关系抽取是识别出实体间语义关系的重要方法
[1]
,数据的价值不仅蕴含在其丰
富的实体中,更体现在数据实体间的关系上。方志文本中蕴含着丰富的实体和实
体间关系,而其又是重要的历史信息资源
[2]
,对方志信息资源的深度挖掘过程就是
对中国历史、中国文化的传承与保护过程,如何从实体关系角度探索方志信息资
源内部存在的关联性,成为值得深度探索的重要问题。
目前,关系抽取研究已在其他领域蓬勃发展 ,如金融领域
[3]
、生物医学领域
[4,5 ]
、军事领域
[6]
、文化领域
[7]
等,但所用关系抽取方法无法兼顾语料文本的结构和
内容。在方志领域开展的关系抽取研究,所用方法多停留在社会学方法或调查研
究方法上
[8]
,实体间关系的研究深度搁浅于实体表层关联或单一类别粒度中。虽然
方志数量众多,但是多数方志经数字化处理后以古汉字或图片形式存储,可用于关
系抽取研究的标准语料库十分缺乏,且语料构建过程过度依赖人工,可移植性较差。
此外,基于深度学习模型开展的研究多是对语料特征的改造或多种深度学习模型
的融合
[9]
,而且忽略了从多粒度类别角度出发探究深度学习模型的鲁棒性和可移植
能力。
针对上述问题,本文融合方志文本的内容和结构
[10]
,开展关系抽取研究,克服了
方志文本利用难、利用不充分的问题,在微观层面组织方志信息资源,具体贡献如
下:
(1)针对方志资源利用不足,选择关系抽取任务中难度更大的同类型实体关
系抽取,以方志中人物关系为例,融合文本结构和内容完成方志文本中实体和关系
的识别与抽取。
(2)针对方志资源利用难,引入远程监督方法,取代人工标注,构建适用于关
系抽取任务的标准语料库。
(3)针对研究方法可移植性弱,引入深度学习方法,训练出可移植、易部署
的关系抽取模型,大幅度提高关系抽取方法的社会实用价值。
2 研究现状
2.1 关系抽取
中文人物关系抽取是一类特殊的关系抽取任务
[11,12]
,其抽取出的关系三元组可
用于构建中文人物知识图谱。张兰霞等
[13]
利用远程监督方法从新闻网站中提取人
物关系记录,并通过引入双层注意力机制的 Bi-GRU 模型充分利用关系语句的特
征,其研究重点在深度学习模型
[14,15]
的优化上,但实证中所用向量属于静态向量,应
对人物角色变换问题的能力稍显不足。胡欣
[16]
将人物关系抽取研究范围扩大至网
络媒体,将注意力机制增广至多级,但同样使用静态向量表示特征。谢腾等
[17]
则利
用 BERT 模型表征出动态词向量,在引入外部特征“实体类型”这一项上,增强了语
义特征的显式表达的同时局限了研究对象的实体类型需要相异。
刘忠宝等
[18]
构建《史记》历史事件知识图谱,其中重要环节之一就是历史事
件的抽取,其通过关系触发词的方式标注历史事件,将事件抽取问题转化为实体识
别问题。李跃艳等
[19]
将历史事件研究范围增广至汉语文本,研究深度进深至关联
关系层面。王一钒等
[20]
引入逻辑语义学支撑其实体标注思想,但实证研究中却采
用静态词向量作为表征
[21]
。若想在文化遗产研究上通过物揭示地域之间的隐性联
系
[22]
,同样离不开对关系的探究。
2.2 方志文本
地方志是中国特有的“存史、育人”资料
[23, 24]
,基于方志信息资源本身开展的研
究同样值得深入探索。李娜
[25]
融合命名实体识别技术和社会网络分析方法,人工
标注了《方志物产》实体,并在标注好的语料基础上探究物产名和别名、人物名
及物产药用价值间的关系,特别地,将“字”、“词”两个粒度的关系分别研究论述。
李娜等
[26]
、徐晨飞等
[27]
将深度学习技术应用在方志实体识别任务中。其中,徐晨
飞等将识别后的方志文本语料发布为关联数据并以 GIS 的形式展现;李娜等将方
志记载的物产名和别名进行可视化呈现,并利用社会网络分析方法探讨了数据间
关联。但物产名和别名间的关系更符合数学中“映射”的内涵,关系类型单一,社会
网络分析的方法也使得大部分原始文本信息被丢弃,并未做到对方志文本深度挖
掘与利用。前述研究工作虽在一定程度上探究了实体间关联关系,但均未探讨同
类型实体间关系
[28]
。因此,本文着眼于同类型实体关系抽取问题,使用远程监督方
法
[29,30]
绕开人工标注语料的代价,多角度融合抽取方志文本中人物关系。
3 融合结构和内容的关系抽取方法
3.1 研究路线
本文对方志文本中人物关系抽取问题的研究逻辑流程如 图 1 所示,其结果是
得到人物关系集合,也称之为关系库。研究整体内容由三部分组成,分别是文本预
处理模块、方法模块、结果模块。其中,文本预处理模块的重要环节是指代消解,
方法模块由基于文本内容的方法和基于文本结构的方法组成 ,结果模块包含由方
法模块中所有方法抽取出的所有关系的集合。
图 1
图 1研究路线
Fig.1Research Route
基于文本结构的方法被首先应用在实验中,在基于规则模板的方法和基于词
句特征的方法共同完成关系记录提取任务后,再通过对关系标签和关系记录进行
联合训练的方式构建三级粒度的关系类别,结果输出至关系库中(如路线①);基
于文本内容的方法引入深度学习方法作为支撑,利用远程监督方法进一步提取关
系记录,并结合①中所提取出的关系记录共同构成学习语料,后使用深度学习模型
增强关系识别过程的自动化程度,结果同样输出至关系库中(如路线②)。
3.2 数据预处理
实验数据选取自《义乌市志》
[31]
,经过数据清洗、格式转换后得到人物、政
治、经济、教科文等共 10 个类别的方志文本语料,根据《义乌市志》文本语言特
点的分析结果,选取适合开展人物关系研究的“人物篇”部分作为实验资源。后利
用“人物表录”篇共收集 374 个人名制作地方志人名词典
①
(①https://github.com/
YongshengWin/LC_Dict/tree/main.),在实体识别阶段作为专业领域词典结合规
则对语料进行人物实体抽取。
“人物篇”由“人物简介”、“人物传记”和“人物表录”组成。其中人物简介共 254
条记录,人物传记共 64 条记录。人物关系样例如表 1 所示,“人物简介”部分信息简
洁,字符数在 300 左右;“人物传记”部分信息丰富且篇幅较长,字符数在 1 000 左右,
由此全面提取人物之间的关系信息具有一定的难度,并且文本中人物名词多指代、
多省略,构造学习语料前需要对原始文本中的代词、省略词作指代消解。
表 1人物关系样例
Table 1Sample Character Relationships
剩余14页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3677
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功