没有合适的资源?快使用搜索试试~ 我知道了~
基于RoBERTa-CRF的古文历史事件抽取方法研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
58 浏览量
2022-06-26
15:01:00
上传
评论 2
收藏 153KB DOCX 举报
温馨提示
基于RoBERTa-CRF的古文历史事件抽取方法研究.docx
资源推荐
资源详情
资源评论















1 引言
随着数字人文研究的兴起,面向人文研究的数据基础设施建设显得越来越重
要 。 数 字 人 文 数 据 基 础 设 施 是 一 种 支 持 数 字 人 文 研 究 活 动 的 研 究 基 础 设 施
(Research Infrastructure),包括数字化的文献资源、数据库、工具平台、支
持知识生产和信息交流的网络空间等
[1]
。长期以来,图书情报等记忆机构保存了大
量历史文献,并将这些历史文献进行细粒度的内容生产和组织,构成了支撑数字人
文研究的重要基础。随着信息检索技术和自然语言处理技术的不断发展 ,文本分
词及命名实体抽取问题得到了相对有效的解决,在此基础上进行特定类型的关系
抽取是实现深层次文本挖掘的重要手段。而事件抽取作为信息检索中的基础工
作,是通过使用预定义的事件模板从文本中发现和提取所需的特定类型的事件 ,借
助抽取触发词、识别事件论元实现对文本细粒度的揭示 ,在数字人文数据基础设
施构建中发挥着重要作用。
中国文化历史悠久,绵延五千年而长盛不衰,典籍成为中华文化源远流长的有
力见证。从典籍中定位、挖掘和归纳信息是构建数据基础设施的重要基石 ,然而
由于典籍数据集体量不大,分类后容易导致类别不均,古文较白话文而言语句言简
意赅,句长大多较短,造成事件论元集中分布,因而面向典籍的事件抽取难度较大。
在机器学习时代,典籍抽取主要依赖于模板匹配的方式,如利用模式匹配法进行战
争句识别,选择条件随机场模型对命名实体进行识别和抽取
[2]
;利用正则表达式等
从已经去除官名、地名的墓志铭中抽取有关亲属信息等
[3]
。而在深度学习时代到
来之后,神经网络自动学习特征表示的特点给典籍抽取带来了新的机遇,与人工构
建的离散特征不同,神经网络通过提供连续的向量表示,帮助挖掘词语之间的潜在
关联。刘忠宝等在 BERT 模型和 LSTM-CRF 模型的基础上,提出面向《史记》
的历史事件及其组成元素抽取方法,并基于此构建《史记》事理图谱
[4]
。
本文在已有研究
[2,3, 4]
的基础上,将典籍中蕴含的主题事件抽取看作序列标注任
务,结合典籍文本事件抽取语言精练、简短的特点,构建既能继承 Transfomrer 优
势,又能考虑句子局部特征的深度学习模型 RoBERTa-CRF,以克服数据集较小、
古文句短造成的事件论元集中分布等问题。
2 相关研究
早期的事件抽取主要采用基于模式匹配的方法,构造一些特定的事件模板,然
后通过模式匹配从文本中抽取单个论元的事件。最早的模式匹配系统可以追溯
到 1993 年 Riloff 开发的用于抽取恐怖事件的 AutoSlog
[5]
。受 AutoSlog 系统的
启发,许多基于模式的事件抽取方法被应用于不同领域,包括生物医学
[5]
、金融
[6]
等
Cohen 等利用 OpenDMAP 语义解析器通过生物医学本体分析提取模板,为生物
医学概念及其属性提供各种高质量的本体模板
[6]
。Arendarenko 等开发了一个基
于本体的事件抽取系统 BEECON,从在线新闻中提取商业知识
[7]
。
基于模式匹配的方法是由具备专业知识的专家手工构建,所以生成的事件模
板定义明确、质量较高,在特定领域应用中往往表现优异。相对的,该类模板的缺
点是需要大量的人工标注,耗时耗力,且存在移植性差的问题,因此基于模式匹配的
事件抽取方法比较适合应用在特定的领域。
随后发展的机器学习技术,本文分为传统的机器学习和深度学习两种方式。
传统的机器学习需要从文本中提取特征作为分类模型的输入,常用的文本特征可
分为词汇、句法和语义特征,陈慧炜定义了破案、抓获和报案三种事件类型,利用

手工标注的词形、实体和事件特征,以此辅助 CRF 模型进行事件类型和论元的识
别
[8]
;赵文娟等通过对语义框架和语法知识的介绍,提出基于句法依存分析的角色
填充思路和技术,以“灾难场景”框架下的“森林火灾”事件为例 ,用最大熵算法对填
充过程进行说明,例证了方法的有效性
[9]
。
传统的机器学习方法并不完美,特征工程是其面临的主要挑战。尽管词汇、
句法、语义等多种特征可以作为分类器的输入,但它们的构建也需要语言知识和
领域专长,这限制了分类模型的应用性和适应性。此外,这些特征往往以独热向量
的形式表示,这不仅造成了数据稀疏问题,还使训练时的特征选择变得更加复杂。
随着深度学习技术在多个领域的成功应用,基于神经网络的自然语言处理任
务也相继涌现。在人工神经网络中,最底层的原始数据以一个非常简单的低维向
量作为输入,每一层可以学习上一层的输出并将其转换为更混合抽象的表示,然后
输入到下一层,直到最高层的输出用于分类。与传统的机器学习技术相比,深度学
习可以大大降低特征工程的难度。
当前基于机器学习的事件抽取大都依据 ACE2005 评测会议的标准,将事件
抽取分为 4 个子任务:触发词识别、事件类型分类、论元识别和论元角色分类 。
通常将前两个任务合并,称为事件识别;将后两个任务合并,称为事件论元角色抽取。
4 个子任务以管道模式或联合抽取方式执行,经典的管道式事件抽取模型是 Chen
等提出的动态多池化卷积神经网络(DMCNN),通过一个动态多池化层同时提
取词汇层和句子层特征来评估句子的每个部分
[10]
;联合抽取的典型案例则有 Sha
等设计的依赖桥循环神经网络(DBRNN),该模型在两个 RNN 神经元的基础上
增加了单词之间的依赖桥信息,为每种依赖关系分配一个权重,提升论元角色的分
类效果
[11]
;Duan 等设计的文档级循环神经网络(DLRNN)则通过使用分布式向
量进行文档表示以提取跨句子甚至跨文档的线索
[12]
。
管道抽取与联合抽取相比,一方面容易造成级联错误,即将上游事件识别的错
误传播到下游的论元角色分类中;另一方面,下游分类器无法影响上游分类器的决
策,单独的触发词检测或者事件论元识别考虑不到触发词-论元之间的关系,这将
直接导致上下文信息的丢失。相反,联合抽取则会通过对事件识别和论元角色分
类两个阶段的联合建模,来解决管道抽取存在的常见问题,进而提升模型的整体性
能。基于上述分析,本文采用联合抽取的方式,结合 RoBERTa-CRF 模型,对《左
传》事件及其论元抽取展开深入研究。
3 研究方法
3.1 研究框架
《左传》事件抽取框架如图 1 所示,该框架主要分为三个部分:模型预处理、
模型训练、模型预测及性能评估。
(1) 模型预处理部分根据《左传》战争句的内容特点构造事件类型,再依
据各种事件类型涉及到的论元建立论元角色分类,由生成的事件类型及论元角色
模板标注数据、提炼出其中的具体论元。
(2) 模型训练部分将事件类型、事件论元和论元角色表示为三元组的形式,
需要说明的是,本文不考虑对触发词的识别,而是将抽取任务转化为序列标注工作。
在语料标注后,训练数据将通过预训练模型 RoBERTa,利用内置的哈尔滨工业大

学 LTP 作为分词工具,对组成同一个词的汉字进行向量化表示。最后借助 CRF
层结合前后文序列标签学习相关性约束,输出最终的标记序列。
(3) 模型预测及性能评估部分选用精确率、召回率和 F1 值三个评测标准,
评估系统标注正确的论元数量,从而考察模型的性能。
图 1
图 1基于 RoBERTa-CRF 的古文历史事件抽取
Fig.1Event Extraction Framework from Chinese Ancient Books Based on
RoBERTa-CRF
3.2 事件类型及论元角色的建立
《左传》记录了春秋时期诸侯争霸的历史,依照鲁国十二公的继位顺序对春
秋战争有较为详尽的记述。邓勇依据《十三经注疏》
[13]
、《春秋左传正义》
[14]
、
《左氏兵法》
[15]
、《中国历代战争年表》
[16]
对《左传》中的战争做了完全统计,
撰写了“春秋左传战争表”
[17]
。本文在邓勇所注的战争句基础上,依据战争目的进行
对比和归纳,将战争划分为三大类型:征战类、戕杀类、救援类。由统计结果可
知:征战类数据最多,救援类次之,戕杀类最少。
(1) 征战类
征战类包括交战双方的讨伐、攻打、包围、追击、缴获、驱逐等动作 ,描述
的主要是国家之间有组织的暴力斗争,一次战争的定义是指交战方在同一地点进
行的持续交战过程。征战类的论元角色较为丰富,包含时间(战争发生的季节或
月份)、进攻方(战争发起方)、防守方(受攻方)、战争原因、战争地点
剩余11页未读,继续阅读
资源评论


罗伯特之技术屋
- 粉丝: 651
- 资源: 1万+

下载权益

C知道特权

VIP文章

课程特权

开通VIP
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


安全验证
文档复制为VIP权益,开通VIP直接复制
