研究论文
数据分析与知识发现
基于 ELECTRA 模型与词性特征的金融事件抽取
方法研究
*
陈星月 倪丽萍 倪志伟
(合肥工业大学管理学院 合肥 230009)
(合肥工业大学过程优化与智能决策教育部重点实验室 合肥 230009)
摘要:【目的】针对金融事件抽取中金融事件实体边界模糊、抽取不准确的问题,提出基于预训练模型
EL ECTRA 和词性特征的金融事件抽取方法。【方法】为增强模型对金融关键实体的感知力,充分考虑语料原
始的语义信息以及词性特征信息,将语料分别通过两个 EL ECTRA 预训练模型后进行融合操作,达到增强语
义的效果;将学习到的信息传入 BiGRU 中,获取上下文长距离的语义依赖,输出原始的序列标签;利用 CRF
克服标签偏差问题,通过上述步骤完成金融事件抽取。【结果】基于预训练模型 ELECTRA 和词性特征的金融
事件抽取方法在金融事件数据集上
F
1
值达到 70.96%,比经典的抽取模型 BiLSTM-CRF 性能提升 20.74 个百
分点。【局限】数据集中事件数较少,预训练模型体积较大,会受到 GPU/TPU 内存的限制。【结论】本文模型能
够更加全面地捕捉金融事件元素之间的联系,提升金融事件抽取的效果。
关键词: ELECTRA 词性特征 金融事件抽取 预训练模型
分类号: TP183
DOI: 10.11925/infotech.2096-3467.2020.1296
引用本文: 陈星月,倪丽萍,倪志伟 . 基于 ELECT RA 模型与词性特征的金融事件抽取方法研究[J]. 数据分
析 与 知 识 发 现 ,2021,5(7):36-47 . (Chen Xingyue, Ni Liping, Ni Zhiwei. Extracting Financial Events with
EL ECTRA and Part-of-Speech[J]. Data Analysis and Knowledge Discovery, 2021, 5(7): 36 -47.)
1 引 言
事件抽取(Event Extraction,EE),是文本数据挖
掘中一项重要又具有挑战性的任务,主要是从描述
事件的相关文本中学习事件的结构化表示
[1]
。
金融事件抽取是事件抽取技术在金融领域的应
用。在金融领域,投资者的决策受到各种因素的影
响,如公司自身新闻、政治政策以及宏观经济等因
素
[2]
,这些因素往往以文本的形式呈现给大众,并且
大多数文本中所包含的事件信息会成为影响金融领
域市场状态的主要因素。因此,金融事件抽取能够
帮助投资者获取公司主要事件,识别投资风险以及
投资机会,预测股市走向,做出正确的投资决策。此
外,金融事件中的关键实体可以帮助投资者更加迅
速地获取事件的主题,从而对金融市场有更为全面
的了解。
随着信息技术的快速发展,金融文本数量呈指
数级增长,而金融领域文本有别于其他领域,具有时
效性高、句法结构复杂、高维稀疏、语义模糊和无规
律性等特点
[3]
,需要设计有效的方法理解金融文本
中深层的语义信息以及上下文对应关系。此外,金
融文本中往往包含大量噪声文本和无关金融实体,
通讯作者(Corresponding author):倪丽萍(Ni Liping),ORCID:0000-0002-7067-302X,E-mail:niliping@hfut.edu.cn。
*本文系国家自然科学基金青年项目 (项目编号:71301041)、国家自然科学基金重大研究计划培育项目 (项目编号:91546108) 和国
家自然科学基金青年项目 (项目编号:71701061) 的研究成果之一。
The work is supported by the National Natural Science Foundation of China (Grant No. 71301041, 91546108, 71701061).
大大增加了抽取金融事件关键实体的难度。因此,
如何从金融文本中准确快速地挖掘出关键并且能为
投资者所利用的事件信息,成为亟待解决的问题。
2 相关工作
近年来,越来越多的研究者开始关注金融领域
事件的抽取,主要分为基于模式匹配的方式和基于
机器学习的方式。
基于模式匹配的方式是根据领域专业人员构建
的模板进行事件抽取。如 Feldman 等
[4]
邀请领域专
家构建了金融领域的情感词典、制定短语级的模式
进 行 情 感 极 性 匹 配 ,制 定 事 件 抽 取 的 规 则 。
Arendarenko 等
[5]
构建了一个知识库,首先对企业商
务文本进行词性标注、形态分析以及语义分析等预
处理,再使用基于规则的方式,查找事件实体,进行
事件抽取。Hogen boom 等
[6]
构建了一套基于语义的
事件检测方法,对新闻文本进行分词、词性标注、形
态分析等预处理,使用知识库(如 WordNet)从语料
中进行模式匹配抽取金融事件,并利用事件抽取中
学到的知识进一步更新知识库。
金融事件抽取研究早期大多都是基于模式匹配
的方式,但是这种方式需要花费大量时间、精力维护
构建的模板,需要根据金融领域信息的更新及时更
新规则,否则会抽取出无用的信息。因而机器学习
方式越来越受到研究者的关注,采用机器学习的方
式即让模型自动地从金融语料的文本表示中学到特
征,进而实现事件抽取。如 Ronnqvist 等
[7]
从新闻中
抽取金融风险事件,根据新闻文本的语义信息使用
一层前馈拓扑网络进行预训练获得语义神经网络,
再结合语义神经网络以及一层前馈神经网络对银行
危机事件进行预测。Jacobs 等
[8]
定义了 10 种经济事
件,将多分类问题转化为二分类问题,使用 one-vs-
rest 的方法,利用 SVM 和 LSTM 对经济事件进行检
测。Yan g 等
[9]
通过远程监督生成金融文本数据扩充
训练数据集,使用 Bi LSTM-CRF 模型进行句子级的
事件抽取后,再进行篇章级的事件抽取整合。Zheng
等
[10]
提出一个端到端的模型 Doc2EDAG,使用三个
Transformer 模型
[11]
将金融事件表转换为基于实体的
有向无环图,以此解决篇章级事件抽取的难题。由
于机器学习在事件抽取中取得的效果更好,本文采
用基于机器学习的方式进行金融领域的事件抽取。
预训练模型利用迁移学习的思想,在大规模的
数据集上进行训练生成模型,再根据下游任务,使用
较少的数据对预训练模型进行微调,有效提升了模
型性能,加快模型训练收敛速度。预训练模型可以
分为静态预训练模型如 Word2Vec
[12]
、GloVe
[13]
和动
态预训练模型如 BERT
[14]
、RoBERTa
[15]
。由于动态
预训练模型可以解决静态预训练模型无法解决的一
词多义问题,学习到文本中的深层语义信息,因此近
年来被广泛应用于事件抽取,并取得了较好的效果。
如 Yang 等
[16]
将事件抽取分为两个阶段,先使用预训
练模型 BERT 进行触发词的抽取,再根据事件元素
重要性重新加权损失函数,使用预训练模型 BERT
进行事件元素的抽取。Du 等
[17]
将事件抽取看作阅
读理解问题,使用两个基于预训练模型 BERT 的问
答模 型分 别进行 触发 词抽 取以 及元 素抽取 。Liu
等
[18]
使用逻辑回归模型抽取触发词,根据触发事件
类型利用问题模板实现无监督问题生成,最后使用
基于预训练模型 BERT 的问答模型进行事件元素抽
取。Ein-Dor 等
[19]
基于维基百科,将事件抽取任务转
化为二分类问题,即判断新闻中是否存在与特定公
司有关的“重要事件”:使用预训练模型 BERT-base
在新闻语料上进行训练,对生成的模型检测常见的
金融事件,并在检测能力以及获取事件的多样性上
进行对比,从而得到一个较好的金融事件检测模型。
Li 等
[20]
根据金融文本使用一个预训练模型 BERT 生
成文档表示,进而将其运用到下游预测事件类型、文
档聚类以及文档摘要的任务中。Zhao 等
[21]
使用预
训练模型 RoBERTa 进行情感分析、粗粒度的实体选
择、细粒度的关键实体识别,从而实现在线金融文本
事件抽取。
综上,前期的金融事件抽取大多利用知识库、情
感极性构建模板进行事件抽取。近年来,运用预训
练模型特别是基于 BERT 及其改进的模型进行金融
事件抽取取得了较好效果,逐渐成为金融事件抽取
的一种主流方法。但基于预训练模型的金融事件抽
取方法目前仅利用预训练模型的自学能力,没有将
语料中存在的知识融合到模型中,因此仍存在模型
语义提取能力不强的问题。本文在使用预训练模型
的基础上融入词性特征,以增强模型对关键实体的
36
评论0