没有合适的资源?快使用搜索试试~ 我知道了~
基于ELECTRA模型与词性特征的金融事件抽取方法研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 190 浏览量
2022-06-26
14:59:35
上传
评论
收藏 550KB DOCX 举报
温馨提示
试读
19页
基于ELECTRA模型与词性特征的金融事件抽取方法研究.docx
资源推荐
资源详情
资源评论
1 引言
事件抽取()是文本数据挖掘中一项重要又具有挑战
性的任务主要是从描述事件的相关文本中学习事件的结构化表示
。
金融事件抽取是事件抽取技术在金融领域的应用。在金融领域 投资者的决
策受到各种因素的影响如公司自身新闻、政治政策以及宏观经济等因素
这些
因素往往以文本的形式呈现给大众并且大多数文本中所包含的事件信息会成为
影响金融领域市场状态的主要因素。因此金融事件抽取能够帮助投资者获取公
司主要事件识别投资风险以及投资机会预测股市走向做出正确的投资决策。此
外金融事件中的关键实体可以帮助投资者更加迅速地获取事件的主题 从而对金
融市场有更为全面的了解。
随着信息技术的快速发展金融文本数量呈指数级增长而金融领域文本有别
于其他领域具有时效性高、句法结构复杂、高维稀疏、语义模糊和无规律性等
特点
需要设计有效的方法理解金融文本中深层的语义信息以及上下文对应关系。
此外金融文本中往往包含大量噪声文本和无关金融实体大大增加了抽取金融事
件关键实体的难度。因此如何从金融文本中准确快速地挖掘出关键并且能为投
资者所利用的事件信息成为亟待解决的问题。
2 相关工作
近年来越来越多的研究者开始关注金融领域事件的抽取主要分为基于模式
匹配的方式和基于机器学习的方式。
基于模式匹配的方式是根据领域专业人员构建的模板进行事件抽取。如
等
邀请领域专家构建了金融领域的情感词典、制定短语级的模式进行
情感极性匹配制定事件抽取的规则。 等
构建了一个知识库首先
对企业商务文本进行词性标注、形态分析以及语义分析等预处理 再使用基于规
则的方式查找事件实体进行事件抽取。 等
构建了一套基于语义
的事件检测方法对新闻文本进行分词、词性标注、形态分析等预处理使用知识
库(如 )从语料中进行模式匹配抽取金融事件并利用事件抽取中学到
的知识进一步更新知识库。
金融事件抽取研究早期大多都是基于模式匹配的方式 但是这种方式需要花
费大量时间、精力维护构建的模板需要根据金融领域信息的更新及时更新规则
否则会抽取出无用的信息。因而机器学习方式越来越受到研究者的关注 采用机
器学习的方式即让模型自动地从金融语料的文本表示中学到特征进而实现事件
抽取。如 !"# 等
$
从新闻中抽取金融风险事件根据新闻文本的语义信息使
用一层前馈拓扑网络进行预训练获得语义神经网络再结合语义神经网络以及一
层前馈神经网络对银行危机事件进行预测。%# 等
&
定义了 ' 种经济事件将
多分类问题转化为二分类问题使用 (#(# 的方法利用 )*+ 和 ,)-+ 对经
济事件进行检测。. 等
/
通过远程监督生成金融文本数据扩充训练数据集使
用 0,)-+(1! 模型进行句子级的事件抽取后再进行篇章级的事件抽取整合。
23 等
'
提出一个端到端的模型 445使用三个 -#6 模型
将
金融事件表转换为基于实体的有向无环图以此解决篇章级事件抽取的难题。由
于机器学习在事件抽取中取得的效果更好本文采用基于机器学习的方式进行金
融领域的事件抽取。
预训练模型利用迁移学习的思想在大规模的数据集上进行训练生成模型再
根据下游任务使用较少的数据对预训练模型进行微调有效提升了模型性能加快
模 型 训 练 收 敛 速 度 。 预 训 练 模 型 可 以 分 为 静 态 预 训 练 模 型 如
*
、5*
和动态预训练模型如 0!-
、!0!-
。由于动态
预训练模型可以解决静态预训练模型无法解决的一词多义问题 学习到文本中的
深层语义信息 因此近年来被广泛应用于事件抽取 并取得了较好的效果。如
. 等
将事件抽取分为两个阶段先使用预训练模型 0!- 进行触发词的抽取
再根据事件元素重要性重新加权损失函数使用预训练模型 0!- 进行事件元素
的抽取。47 等
$
将事件抽取看作阅读理解问题使用两个基于预训练模型 0!-
的问答模型分别进行触发词抽取以及元素抽取。,7 等
&
使用逻辑回归模型抽取
触发词根据触发事件类型利用问题模板实现无监督问题生成最后使用基于预训
练模型 0!- 的问答模型进行事件元素抽取。 (4 等
/
基于维基百科将事
件抽取任务转化为二分类问题即判断新闻中是否存在与特定公司有关的“重要事
件”:使用预训练模型 0!-(# 在新闻语料上进行训练对生成的模型检测常
见的金融事件并在检测能力以及获取事件的多样性上进行对比从而得到一个较
好的金融事件检测模型。, 等
'
根据金融文本使用一个预训练模型 0!- 生成
文档表示进而将其运用到下游预测事件类型、文档聚类以及文档摘要的任务中。
23 等
使用预训练模型 !0!- 进行情感分析、粗粒度的实体选择、细粒
度的关键实体识别从而实现在线金融文本事件抽取。
综上前期的金融事件抽取大多利用知识库、情感极性构建模板进行事件抽
取。近年来运用预训练模型特别是基于 0!- 及其改进的模型进行金融事件抽
取取得了较好效果逐渐成为金融事件抽取的一种主流方法。但基于预训练模型
的金融事件抽取方法目前仅利用预训练模型的自学能力没有将语料中存在的知
识融合到模型中因此仍存在模型语义提取能力不强的问题。本文在使用预训练
模型的基础上融入词性特征以增强模型对关键实体的抽取能力。词性特征是自
然语言处理中比较重要的研究内容不同词性的词汇在句子中发挥着不同的功能。
在金融事件抽取中名词、动词往往在句子中有重要的作用对抽取事件元素有很
大帮助此外词性自动标注的精度较高噪声数据输入到模型的可能性较小。因此
利用预训练模型与词性特征模型可以更好地感知上下文提升抽取金融事件的性
能。
3 模型介绍
8问题定义
金融事件抽取问题可以描述为:从文本语料中识别是否存在相关的金融事
件再识别出相关事件的涉及元素最后确定每个元素所扮演的角色
。如下所示
将例句输入到事件抽取模型中需要将 、、、 和 抽取出来。其中
称为触发词、、 和 称为事件元素。
例句:美锦集团( )持有 的上 市公 司 &8$ 亿股 股份 ( )中 已 有
$8& 亿()股处于质押()状态占其持股的 /$8/&9()。
例 句 中 的 触 发 词 为 “ 质 押 ” 说 明 包 含 着 一 个 质 押 事 件 而 抽 取 的 元 素
、、 和 在质押事件中的元素角色分别为质押公司、质押物、质押数
量、质押比例。
基 于 机 器 学 习 的 事 件 抽 取 主 要 有 两 种 方 法 分 别 是 管 道 式 方 法 ( -3
:;;;3 )和联合学习方法(-3%;;3)。管道式方法
在第一阶段进行触发词识别、事件类型确定第二阶段进行事件元素的识别即先
将 例 句 中 的 抽 取 出 来 判 断 属 于 哪 类 事 件 之 后 根 据 事 件 框 架 进 行
、、 和 的抽取。联合学习方法则同时提取触发词和事件元素即将例
句中 、、、 和 同时抽取出来。由于管道式方法存在误差传播的
现象如果在第一阶段事件类型判断错误会导致第二阶段事件元素抽取错误因此
本文采用联合学习方法利用触发词和事件元素之间的联系让模型更有效地学习
到语料的局部特征提高事件抽取的精度。本文将事件抽取看作序列标注任务标
注策略采用 0<= 策略0 表示事件元素的开始< 表示事件元素的中间或结尾词=
表示无关词。
8整体流程框架
本 文 提 出 一 种 基 于 ,1-! ( 66> , 3
1##6#-!;#7>)预训练模型
和词性特征的金融
事件抽取模型 ,1-!(:=)(05!?(1! 模型对金融事件中的相关要素进行
抽取。首先对原始语料进行预处理输入不同的 ,1-! 预训练模型中分别获
取语料最初的语义信息以及通过外部工具包所输入的词性特征@然后将隐藏层向
量点乘融合进行语义增强经过 05!? 获取 ,1-! 输出信息中的上下文语
义依赖输出最初的序列标签@最后利用条件随机场(1!)克服标签偏差。
单一的循环神经网络不能完全提取到语料中的事件信息 会丢失一些重要信
息 而 预 训 练 模 型 在 大 量 的 数 据 上 进 行 预 训 练 具 有 强 大 的 提 取 特 征 能 力 。
,1-! 是基于预训练模型 0!- 的改进可以学习到更好的文本表示。此外
通常的事件抽取模型没有充分利用语料中自带的词性特征信息一般来说词性为
动词、名词的词语在事件描述中会使得后续模型获得的语义信息更加丰富。因
此本文引入预训练模型 ,1-! 和词性特征通过一个预训练模型 ,1-!
获取原始语料中的语义信息特征通过另一个预训练模型 ,1-! 获取带有外
部知识的词性特征利用预训练模型强大的迁移能力不仅获取了语料中不同层次
的语义信息并且提取各种词性下的实体联系增强模型对关键实体的抽取能力。
本文模型整体架构如图
所示。主要包括输入层、两个 ,1-! 预训练
模型层、05!? 层、1! 层以及输出层。
图
剩余18页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3659
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功