没有合适的资源?快使用搜索试试~ 我知道了~
基于BERT的阅读理解式标书文本信息抽取方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 86 浏览量
2023-02-23
20:51:04
上传
评论
收藏 287KB DOCX 举报
温馨提示
试读
8页
基于BERT的阅读理解式标书文本信息抽取方法.docx
资源推荐
资源详情
资源评论
0 引 言
在互联网大数据时代,各大采购平台网站每天都会发布大量招投标和中标公告,这些
公告内容涉及方方面面,蕴含着很大的商业价值。对于企业而言,及时获取这些招投
标数据,并从中抽取所需信息,具有十分重要的意义。而网站上发布的标书文本多为
非结构化文本,这给信息的抽取以及统计工作带来难度。
信息抽取(information extraction)是从非结构化或半结构化的文本中对用户指定
类型的实体、关系以及事件进行自动标识和分类,输出为结构化的信息
[ 1]
。由于其广
泛应用,近年来,信息抽取成为自然语言处理(natural language processing)领
域 研 究 的 热 门 课 题 。 信 息 抽 取 主 要 包 括 命 名 实 体 识 别 ( named entity
recognition)、关系抽取(relation extraction)和事件抽取(event extraction)
三个子任务
[ 2]
,信息抽取的关键是命名实体的识别。早期常用的是基于规则的抽取方
法
[ 3]
,但该方法存在泛化能力差的问题。
深度学习的发展对自然语言处理领域产生了巨大的影响
[ 4]
,在信息抽取中使用也相当
普遍。在预训练模型发布之前,信息抽取主要模型以 CNN 和 RNN
[ 5]
为主。Akbik 等
[ 6]
通过动态存储每个词的所有上下文嵌入,并对这些嵌入进行池化操作以提取词的全
局 上 下 文 嵌 入 , 该 方 法 显 著 提 高 了 命 名 实 体 的 识 别 效 果 。 BERT ( bidirectional
encoder representations from transformers)模型的提出
[ 7]
,使得多项自然语
言处理任务取得了更好的效果,预训练模型被越来越多的学者使用。Xue 等
[ 8]
提出
针对联合实体和关系提取任务的集中注意力模型,该模型通过动态范围注意力机制将
BERT 模型集成到联合学习中,提高了共享参数层的特征表示能力。Qiu 等
[ 9]
使用预
训练模型,并以问答的方式,实现临床医疗文本的结构化。
近年,有学者将信息抽取任务转化为问答(question answering)任务来处理,取
得较好效果。机器阅读理解(machine reading comprehension)是一类基于文本
的问答任务,Levy 等
[ 10]
将关系映射为问题,把关系抽取任务转为简单的阅读理解任
务。McCann 等
[ 11]
将 10 个不同的自然语言处理任务转化为问答任务,并将 10 个不
同的任务数据集转化为问答数据集。Li 等
[ 12]
利用阅读理解模型进行多轮对话,从而
实现对文本实体-关系信息的抽取。Qiu 等
[ 13]
提出 QA4IE 框架,利用问答的灵活性,
在句子间生成更加丰富的关系三元组。Li 等
[ 14]
针对命名实体识别任务,提出了一个
统一的阅读理解框架,能够同时识别出文本中的非嵌套实体和嵌套实体。
机器阅读理解任务定义为给定一篇文章以及基于文章的问题,让机器给出问题的答案。
随着斯坦福大学发布 SQuAD(Stanford Question Answering Dataset)阅读理解
数据集
[ 15]
,阅读理解任务获得了大量的关注。Wang 等
[ 16]
提出了在 SQuAD 数据
集上的第一个端到端的阅读理解模型,该模型先对问题和原文分别进行编码,然后利
用 Match-LSTM 将问题和原文融合,最后使用 Pointer-Network 从原文中选取答案
片段。Seo 等
[ 17]
在注意力机制的基础上进行改进,提出了 BiDAF(bi-directional
attention flow)模型,该模型利用双向注意力流,得到一个问题感知的上下文表征,
获得更深层次的上下文语义信息。由于之前的 SQuAD 数据集全为有答案的情况,斯
坦福大学又发布了 SQuAD 2.0 数据集
[ 18]
,SQuAD 2.0 数据集存在原文中没有材料
资源评论
- 龙利_鱼2023-05-15总算找到了自己想要的资源,对自己的启发很大,感谢分享~
罗伯特之技术屋
- 粉丝: 3675
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高光谱数据集(.mat.csv)-科研学术
- 基于JavaScript和CSS的母婴之家网页设计源码 - myzj
- WX小程序源码无后台京东白条
- WX小程序源码无后台简易计算器
- 基于SpringBoot和Vue的Fastcms前后端分离CMS系统设计源码 - fastcms
- WX小程序源码无后台会议精灵
- 基于Java和Javascript的工程建设综合管理系统材料管理模块设计源码 - material
- c51_2_2.c
- 凡客vancl商城的商品分类-产品搜索-产品详情-评论的抓取php程序压缩包
- ASCII American Standard Code for Information Interchange
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功