没有合适的资源?快使用搜索试试~ 我知道了~
基于ELECTRA模型与词性特征的金融事件抽取方法研究_陈星月1
需积分: 0 1 下载量 115 浏览量
2022-08-03
12:43:53
上传
评论
收藏 1.15MB PDF 举报
温馨提示
试读
12页
摘要:【目的】针对金融事件抽取中金融事件实体边界模糊、抽取不准确的问题,提出基于预训练模型ELECTRA和词性特征的金融事件抽取方法。【方法】为增强模型对金融关
资源详情
资源评论
资源推荐
研究论文
数据分析与知识发现
基于 ELECTRA 模型与词性特征的金融事件抽取
方法研究
*
陈星月 倪丽萍 倪志伟
(合肥工业大学管理学院 合肥 230009)
(合肥工业大学过程优化与智能决策教育部重点实验室 合肥 230009)
摘要:【目的】针对金融事件抽取中金融事件实体边界模糊、抽取不准确的问题,提出基于预训练模型
EL ECTRA 和词性特征的金融事件抽取方法。【方法】为增强模型对金融关键实体的感知力,充分考虑语料原
始的语义信息以及词性特征信息,将语料分别通过两个 EL ECTRA 预训练模型后进行融合操作,达到增强语
义的效果;将学习到的信息传入 BiGRU 中,获取上下文长距离的语义依赖,输出原始的序列标签;利用 CRF
克服标签偏差问题,通过上述步骤完成金融事件抽取。【结果】基于预训练模型 ELECTRA 和词性特征的金融
事件抽取方法在金融事件数据集上
F
1
值达到 70.96%,比经典的抽取模型 BiLSTM-CRF 性能提升 20.74 个百
分点。【局限】数据集中事件数较少,预训练模型体积较大,会受到 GPU/TPU 内存的限制。【结论】本文模型能
够更加全面地捕捉金融事件元素之间的联系,提升金融事件抽取的效果。
关键词: ELECTRA 词性特征 金融事件抽取 预训练模型
分类号: TP183
DOI: 10.11925/infotech.2096-3467.2020.1296
引用本文: 陈星月,倪丽萍,倪志伟 . 基于 ELECT RA 模型与词性特征的金融事件抽取方法研究[J]. 数据分
析 与 知 识 发 现 ,2021,5(7):36-47 . (Chen Xingyue, Ni Liping, Ni Zhiwei. Extracting Financial Events with
EL ECTRA and Part-of-Speech[J]. Data Analysis and Knowledge Discovery, 2021, 5(7): 36 -47.)
1 引 言
事件抽取(Event Extraction,EE),是文本数据挖
掘中一项重要又具有挑战性的任务,主要是从描述
事件的相关文本中学习事件的结构化表示
[1]
。
金融事件抽取是事件抽取技术在金融领域的应
用。在金融领域,投资者的决策受到各种因素的影
响,如公司自身新闻、政治政策以及宏观经济等因
素
[2]
,这些因素往往以文本的形式呈现给大众,并且
大多数文本中所包含的事件信息会成为影响金融领
域市场状态的主要因素。因此,金融事件抽取能够
帮助投资者获取公司主要事件,识别投资风险以及
投资机会,预测股市走向,做出正确的投资决策。此
外,金融事件中的关键实体可以帮助投资者更加迅
速地获取事件的主题,从而对金融市场有更为全面
的了解。
随着信息技术的快速发展,金融文本数量呈指
数级增长,而金融领域文本有别于其他领域,具有时
效性高、句法结构复杂、高维稀疏、语义模糊和无规
律性等特点
[3]
,需要设计有效的方法理解金融文本
中深层的语义信息以及上下文对应关系。此外,金
融文本中往往包含大量噪声文本和无关金融实体,
通讯作者(Corresponding author):倪丽萍(Ni Liping),ORCID:0000-0002-7067-302X,E-mail:niliping@hfut.edu.cn。
*本文系国家自然科学基金青年项目 (项目编号:71301041)、国家自然科学基金重大研究计划培育项目 (项目编号:91546108) 和国
家自然科学基金青年项目 (项目编号:71701061) 的研究成果之一。
The work is supported by the National Natural Science Foundation of China (Grant No. 71301041, 91546108, 71701061).
大大增加了抽取金融事件关键实体的难度。因此,
如何从金融文本中准确快速地挖掘出关键并且能为
投资者所利用的事件信息,成为亟待解决的问题。
2 相关工作
近年来,越来越多的研究者开始关注金融领域
事件的抽取,主要分为基于模式匹配的方式和基于
机器学习的方式。
基于模式匹配的方式是根据领域专业人员构建
的模板进行事件抽取。如 Feldman 等
[4]
邀请领域专
家构建了金融领域的情感词典、制定短语级的模式
进 行 情 感 极 性 匹 配 ,制 定 事 件 抽 取 的 规 则 。
Arendarenko 等
[5]
构建了一个知识库,首先对企业商
务文本进行词性标注、形态分析以及语义分析等预
处理,再使用基于规则的方式,查找事件实体,进行
事件抽取。Hogen boom 等
[6]
构建了一套基于语义的
事件检测方法,对新闻文本进行分词、词性标注、形
态分析等预处理,使用知识库(如 WordNet)从语料
中进行模式匹配抽取金融事件,并利用事件抽取中
学到的知识进一步更新知识库。
金融事件抽取研究早期大多都是基于模式匹配
的方式,但是这种方式需要花费大量时间、精力维护
构建的模板,需要根据金融领域信息的更新及时更
新规则,否则会抽取出无用的信息。因而机器学习
方式越来越受到研究者的关注,采用机器学习的方
式即让模型自动地从金融语料的文本表示中学到特
征,进而实现事件抽取。如 Ronnqvist 等
[7]
从新闻中
抽取金融风险事件,根据新闻文本的语义信息使用
一层前馈拓扑网络进行预训练获得语义神经网络,
再结合语义神经网络以及一层前馈神经网络对银行
危机事件进行预测。Jacobs 等
[8]
定义了 10 种经济事
件,将多分类问题转化为二分类问题,使用 one-vs-
rest 的方法,利用 SVM 和 LSTM 对经济事件进行检
测。Yan g 等
[9]
通过远程监督生成金融文本数据扩充
训练数据集,使用 Bi LSTM-CRF 模型进行句子级的
事件抽取后,再进行篇章级的事件抽取整合。Zheng
等
[10]
提出一个端到端的模型 Doc2EDAG,使用三个
Transformer 模型
[11]
将金融事件表转换为基于实体的
有向无环图,以此解决篇章级事件抽取的难题。由
于机器学习在事件抽取中取得的效果更好,本文采
用基于机器学习的方式进行金融领域的事件抽取。
预训练模型利用迁移学习的思想,在大规模的
数据集上进行训练生成模型,再根据下游任务,使用
较少的数据对预训练模型进行微调,有效提升了模
型性能,加快模型训练收敛速度。预训练模型可以
分为静态预训练模型如 Word2Vec
[12]
、GloVe
[13]
和动
态预训练模型如 BERT
[14]
、RoBERTa
[15]
。由于动态
预训练模型可以解决静态预训练模型无法解决的一
词多义问题,学习到文本中的深层语义信息,因此近
年来被广泛应用于事件抽取,并取得了较好的效果。
如 Yang 等
[16]
将事件抽取分为两个阶段,先使用预训
练模型 BERT 进行触发词的抽取,再根据事件元素
重要性重新加权损失函数,使用预训练模型 BERT
进行事件元素的抽取。Du 等
[17]
将事件抽取看作阅
读理解问题,使用两个基于预训练模型 BERT 的问
答模 型分 别进行 触发 词抽 取以 及元 素抽取 。Liu
等
[18]
使用逻辑回归模型抽取触发词,根据触发事件
类型利用问题模板实现无监督问题生成,最后使用
基于预训练模型 BERT 的问答模型进行事件元素抽
取。Ein-Dor 等
[19]
基于维基百科,将事件抽取任务转
化为二分类问题,即判断新闻中是否存在与特定公
司有关的“重要事件”:使用预训练模型 BERT-base
在新闻语料上进行训练,对生成的模型检测常见的
金融事件,并在检测能力以及获取事件的多样性上
进行对比,从而得到一个较好的金融事件检测模型。
Li 等
[20]
根据金融文本使用一个预训练模型 BERT 生
成文档表示,进而将其运用到下游预测事件类型、文
档聚类以及文档摘要的任务中。Zhao 等
[21]
使用预
训练模型 RoBERTa 进行情感分析、粗粒度的实体选
择、细粒度的关键实体识别,从而实现在线金融文本
事件抽取。
综上,前期的金融事件抽取大多利用知识库、情
感极性构建模板进行事件抽取。近年来,运用预训
练模型特别是基于 BERT 及其改进的模型进行金融
事件抽取取得了较好效果,逐渐成为金融事件抽取
的一种主流方法。但基于预训练模型的金融事件抽
取方法目前仅利用预训练模型的自学能力,没有将
语料中存在的知识融合到模型中,因此仍存在模型
语义提取能力不强的问题。本文在使用预训练模型
的基础上融入词性特征,以增强模型对关键实体的
36
网络首发时间:2021-04-20 08:25:12
网络首发地址:https://kns.cnki.net/kcms/detail/10.1478.g2.20210419.1558.002.html
总第 55 期 2021 年 第 7 期
Dat a Analysis and Kno wledge Discovery
大大增加了抽取金融事件关键实体的难度。因此,
如何从金融文本中准确快速地挖掘出关键并且能为
投资者所利用的事件信息,成为亟待解决的问题。
2 相关工作
近年来,越来越多的研究者开始关注金融领域
事件的抽取,主要分为基于模式匹配的方式和基于
机器学习的方式。
基于模式匹配的方式是根据领域专业人员构建
的模板进行事件抽取。如 Feldman 等
[4]
邀请领域专
家构建了金融领域的情感词典、制定短语级的模式
进 行 情 感 极 性 匹 配 ,制 定 事 件 抽 取 的 规 则 。
Arendarenko 等
[5]
构建了一个知识库,首先对企业商
务文本进行词性标注、形态分析以及语义分析等预
处理,再使用基于规则的方式,查找事件实体,进行
事件抽取。Hogen boom 等
[6]
构建了一套基于语义的
事件检测方法,对新闻文本进行分词、词性标注、形
态分析等预处理,使用知识库(如 WordNet)从语料
中进行模式匹配抽取金融事件,并利用事件抽取中
学到的知识进一步更新知识库。
金融事件抽取研究早期大多都是基于模式匹配
的方式,但是这种方式需要花费大量时间、精力维护
构建的模板,需要根据金融领域信息的更新及时更
新规则,否则会抽取出无用的信息。因而机器学习
方式越来越受到研究者的关注,采用机器学习的方
式即让模型自动地从金融语料的文本表示中学到特
征,进而实现事件抽取。如 Ronnqvist 等
[7]
从新闻中
抽取金融风险事件,根据新闻文本的语义信息使用
一层前馈拓扑网络进行预训练获得语义神经网络,
再结合语义神经网络以及一层前馈神经网络对银行
危机事件进行预测。Jacobs 等
[8]
定义了 10 种经济事
件,将多分类问题转化为二分类问题,使用 one-vs-
rest 的方法,利用 SVM 和 LSTM 对经济事件进行检
测。Yan g 等
[9]
通过远程监督生成金融文本数据扩充
训练数据集,使用 Bi LSTM-CRF 模型进行句子级的
事件抽取后,再进行篇章级的事件抽取整合。Zheng
等
[10]
提出一个端到端的模型 Doc2EDAG,使用三个
Transformer 模型
[11]
将金融事件表转换为基于实体的
有向无环图,以此解决篇章级事件抽取的难题。由
于机器学习在事件抽取中取得的效果更好,本文采
用基于机器学习的方式进行金融领域的事件抽取。
预训练模型利用迁移学习的思想,在大规模的
数据集上进行训练生成模型,再根据下游任务,使用
较少的数据对预训练模型进行微调,有效提升了模
型性能,加快模型训练收敛速度。预训练模型可以
分为静态预训练模型如 Word2Vec
[12]
、GloVe
[13]
和动
态预训练模型如 BERT
[14]
、RoBERTa
[15]
。由于动态
预训练模型可以解决静态预训练模型无法解决的一
词多义问题,学习到文本中的深层语义信息,因此近
年来被广泛应用于事件抽取,并取得了较好的效果。
如 Yang 等
[16]
将事件抽取分为两个阶段,先使用预训
练模型 BERT 进行触发词的抽取,再根据事件元素
重要性重新加权损失函数,使用预训练模型 BERT
进行事件元素的抽取。Du 等
[17]
将事件抽取看作阅
读理解问题,使用两个基于预训练模型 BERT 的问
答模 型分 别进行 触发 词抽 取以 及元 素抽取 。Liu
等
[18]
使用逻辑回归模型抽取触发词,根据触发事件
类型利用问题模板实现无监督问题生成,最后使用
基于预训练模型 BERT 的问答模型进行事件元素抽
取。Ein-Dor 等
[19]
基于维基百科,将事件抽取任务转
化为二分类问题,即判断新闻中是否存在与特定公
司有关的“重要事件”:使用预训练模型 BERT-base
在新闻语料上进行训练,对生成的模型检测常见的
金融事件,并在检测能力以及获取事件的多样性上
进行对比,从而得到一个较好的金融事件检测模型。
Li 等
[20]
根据金融文本使用一个预训练模型 BERT 生
成文档表示,进而将其运用到下游预测事件类型、文
档聚类以及文档摘要的任务中。Zhao 等
[21]
使用预
训练模型 RoBERTa 进行情感分析、粗粒度的实体选
择、细粒度的关键实体识别,从而实现在线金融文本
事件抽取。
综上,前期的金融事件抽取大多利用知识库、情
感极性构建模板进行事件抽取。近年来,运用预训
练模型特别是基于 BERT 及其改进的模型进行金融
事件抽取取得了较好效果,逐渐成为金融事件抽取
的一种主流方法。但基于预训练模型的金融事件抽
取方法目前仅利用预训练模型的自学能力,没有将
语料中存在的知识融合到模型中,因此仍存在模型
语义提取能力不强的问题。本文在使用预训练模型
的基础上融入词性特征,以增强模型对关键实体的
37
研究论文
数据分析与知识发现
抽取能力。词性特征是自然语言处理中比较重要的
研究内容,不同词性的词汇在句子中发挥着不同的
功能。在金融事件抽取中,名词、动词往往在句子中
有重要的作用,对抽取事件元素有很大帮助,此外,
词性自动标注的精度较高,噪声数据输入到模型的
可能性较小。因此,利用预训练模型与词性特征,模
型可以 更好地感 知上下文,提升抽 取金融事 件的
性能。
3 模型介绍
3.1 问题定义
金融事件抽取问题可以描述为:从文本语料中
识别是否存在相关的金融事件,再识别出相关事件
的涉及元素,最后确定每个元素所扮演的角色
[22]
。
如下所示,将例句输入到事件抽取模型中,需要将
E1、A1、A2 、A3 和 A4 抽取出来。其中 E1 称为触发
词,A1、A2、A3 和 A4 称为事件元素。
例句:美锦集团美锦集团((A1))持有的上市公司 28.37 亿
股股份股份((A2))中,已有 27.8 亿亿((A3))股处于质押质押((E1))状
态,占其持股的 97.98%((A4))。
例句中的触发词为“质押”,说明包含着一个质
押事件,而抽取的元素 A 1、A2、A3 和 A4 在质押事件
中的元素角色分别为质押公司、质押物、质押数量、
质押比例。
基于机器学习的事件抽取主要有两种方法,分
别是管道式方法(The Pipelined Approach)和联合学
习方法(The Jo int Approach)。管道式方法在第一阶
段进行触发词识别、事件类型确定,第二阶段进行事
件元素的识别,即先将例句中的 E1 抽取出来,判断
属于哪类事件,之后根据 E1 事件框架进行 A1、A2、
A3 和 A4 的抽取。联合学习方法则同时提取触发词
和事件元素,即将例句中 E1、A1、A2、A3 和 A4 同时
抽取出来。由于管道式方法存在误差传播的现象,
如果在第一阶段事件类型判断错误,会导致第二阶
段事件元素抽取错误,因此本文采用联合学习方法,
利用触发词和事件元素之间的联系,让模型更有效
地学习到语料的局部特征,提高事件抽取的精度。
本文将事件抽取看作序列标注任务,标注策略采用
BIO 策略,B 表示事件元素的开始,I 表示事件元素的
中间或结尾词,O 表示无关词。
3.2 整体流程框架
本 文 提 出 一 种 基 于 ELECTRA(Efficient ly
Learning an Encoder that Classifies Token Replacements
Accurately)预训练模型
[23]
和词性特征的金融事件抽
取模型 ELECTRA-POS-BiGRU-CRF 模型,对金融事
件中的相关要素进行抽取。首先对原始语料进行预
处理,输入不同的 ELECTRA 预训练模型中,分别获
取语料最初的语义信息以及通过外部工具包所输入
的词性特征;然后将隐藏层向量点乘融合,进行语义
增强,经过 BiGRU 获取 ELECTRA 输出信息中的上
下文语义依赖,输出最初的序列标签;最后利用条件
随机场(CRF)克服标签偏差。
单一的循环神经网络不能完全提取到语料中的
事件信息,会丢失一些重要信息,而预训练模型在大
量的数据上进行预训练,具有强大的提取特征能力。
EL ECTRA 是基于预训练模型 BERT 的改进,可以学
习到更好的文本表示。此外,通常的事件抽取模型
没有充分利用语料中自带的词性特征信息,一般来
说,词性为动词、名词的词语在事件描述中会使得后
续模型获得的语义信息更加丰富。因此本文引入预
训练模型 ELECTRA 和词性特征,通过一个预训练
模型 ELECTRA 获取原始语料中的语义信息特征,
通过另一个预训练模型 ELECTR A 获取带有外部知
识的词性特征,利用预训练模型强大的迁移能力,不
仅获取了语料中不同层次的语义信息,并且提取各
种词性下的实体联系,增强模型对关键实体的抽取
能力。
本文模型整体架构如图 1 所示。主要包括输入
层、两个 ELECTRA 预训练模型层、B iGRU 层、CRF
层以及输出层。
3.3 输入层
设计了两个 ELECTRA 预训练模型,其中一个
用于提取文本语义,另一个用于提取词性特征,针对
两者的不同功能,预处理操作包括如下流程,如图 2
所示。
(1)文本分词:利用分词方法将文本分为一个字
或者短语等词汇单位。由于需要将原始语料输入到
两个不 同的预训 练模型中,因此进 行两种不 同的
分词。
对于给定句子
x = { x
1
,x
2
,…,x
n
}
,其中
x
i
表示输
38
剩余11页未读,继续阅读
WaiyuetFung
- 粉丝: 63
- 资源: 316
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0