没有合适的资源?快使用搜索试试~ 我知道了~
RLCPAR:一种基于强化学习的中文专利摘要改写模型.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 12 浏览量
2022-06-26
14:49:21
上传
评论
收藏 343KB DOCX 举报
温馨提示
试读
15页
RLCPAR:一种基于强化学习的中文专利摘要改写模型.docx
资源推荐
资源详情
资源评论
1 引言
在我国专利申请数量不断增多创新主体创新热情日益增长的背景下对专利
数据进行深加工是专利分析前一个非常重要的环节需要投入较大的人力和物力。
专利说明书摘要中上位词信息不够具体影响专利查询的检全检准。为了提高专
利的检索质量需要对专利摘要说明书进行改写。专利说明书摘要的改写作为专
利数据深加工的一种重要途径越来越受到科研人员与专利信息分析师的关注
。
本文的研究对象是医药类的中文专利说明书 重点对专利说明书摘要的改写
进行研究。专利说明书与一般的文本不同其具有一定的格式要求并且字、词的
使用都比较精炼。专利说明书摘要简称专利摘要它是专利说明书内容的概述。
专利说明书摘要中首先要提出专利发明的名称然后简述它的背景知识和所属的
技术领域、需要解决的技术问题还有它的主要技术特点和功效。而现实中的专
利说明书摘要存在以下三个主要问题
:专利摘要概括不当制备方法缺失有益
效果(功效)缺失。因此需要对专利摘要进行改写。目前主要是各个行业的技
术专家通读专利文献理解专利内容后结合原始摘要进行增添、删除和修饰对
专利摘要进行改写。这种人工改写的方法存在效率低、耗时长和成本昂贵等问
题。本文在分析和调研现有文本改写方法的基础上 利用文本自动摘要技术、结
合专利术语词典和基于强化学习的句子抽取方法抽取专利说明书中的关键句利
用 深度神经网络文本生成方法生成候选摘要最终融合原始摘要信
息经过语义去重和排序得到改写摘要。改写后的摘要较原始摘要更加简洁信息
更加完整包含发明名称、原料组成、制备过程和功效 个基本要素而且机器改
写后的摘要较原始摘要更趋近于人类专家改写的结果。
2 相关工作
针对自动文本摘要技术已经开展了大量研究提出了各种文本摘要自动抽取
技术和方法。文本摘要问题按照处理的文档数量可以分为单文档摘要和多文档
摘要。单文档摘要是指通过对单文档进行信息内容抽取生成摘要多文档摘要是
指对多文档集合进行信息内容抽取生成能概括这些多文档核心内容的摘要。按
照实现方式可以分为抽取式()和生成式()。抽取式方
法直接选择并输出原始文档中的显著句子或短语
。生成式方法涉及重写摘要主
要根据文档的中心思想重新生成摘要
。
抽取式自动摘要方法主要涉及基于统计模型、基于篇章结构、机器学习、
基于图排序算法和神经网络的方法。自动摘要技术早期是基于统计信息和规则
考虑句子的词语权重、句子位置、句子与首句的相似度
。 等
基于解析
树的统计模型和 !""# 等
$
基于整数线性规划的方法进行摘要抽取。篇章结构在
自动摘要领域也有广泛应用
%
。& 等
'
利用多项贝叶斯分类器进行文摘选取
使用了词共现特征。贝叶斯模型算法简单估计参数量少对缺失数据不敏感但是
忽略了句子之间的联系。张晗等
针对医学文本的特点提出一种基于语义图的
多文档自动摘要方法并利用其中的语义信息实现摘要主题的识别利用 ()*
实现源文档概念及其语义关系的规范化抽取并构建语义图结合语义搭配模式对
摘要主题进行划分。+ 等
在图排序的方法中引入语义角色信息抽取关键句子
形成摘要。对于神经网络模型, 等
提出了基于句子级别与词级别的抽取
式自动摘要模型其结构为编码器-解码器框架其中基于句子级别的摘要模型等
价于分类问题每个句子选择抽取或不抽取而基于词级别的摘要模型生成的词仅
为原文中出现过的词。贾晓婷等
引入神经网络模型 ./结合文本的上下
文信息最后用改进的 k- 聚类算法实现了文本摘要的提取。张迎等
提出
一种基于篇章主次关系的抽取式摘要方法该方法基于神经网络模型构建了一个
篇章主次关系和文本摘要联合学习的模型。
生成式摘要主要涉及三类方法:基于形式化语义表示、基于短语选择与合
并和基于深度学习的序列生成方法。文献
将文本表示为语义图选择子图进
行拼接生成摘要。基于短语选择与合并的方法更加简单重点在于短语重要性计
算
。基于深度学习的序列生成方法使用带有注意力机制的编码器-解码器模型
模拟摘要生成在两个不同的语料库上实现了最先进的性能
$
。( 等
%
为了解
决词汇表限制问题和生成重复词汇的问题提出指针机制和复制机制提升摘要生
成的质量与可读性。沈思等
'
基于 0(1-,)2 模型以字为基本单位生成期刊
论文摘要。3 等
利用训练数据发现其中的模板辅助摘要的生成。( 等
提出一种新的预训练方法将 4)(45"5)*
) 中 掩蔽 的语 言建 模 和生 成式 预训 练 ( !&-
!&)中的标准语言建模结合起来进行文本摘要的生成。
目前绝大多数应用的系统都是抽取式该方法比较简单但是存在很多的问题。
简单是因为只需要从原文中找出比较重要的句子排序组成输出即可通过给文档
句子排序选择关键句再按照自然顺序组合得到抽取式摘要。但是摘要句子间是
否通顺流畅则无法保证而且无法解决指代问题因此效果不佳。随着深度学习技
术在自然语言处理中的深入应用尤其是基于注意力机制的 (6(6 模型的盛行
生成式摘要研究被提升到一个较高水平并且提出了复制等机制解决 (6(6 模
型中的未登录词(787/8"977/)问题
%
。生成式模型可以通过端到
端的方法实现显得更简洁。但是它们受到长文档和不准确编码的影响需要注意
力模型查看所有编码的单词以解码每个生成的摘要单词这个过程速度慢无法并
行操作。生成式模型也会遭受冗余问题特别是生成多个句子摘要。如何利用抽
取式方法改进生成式摘要变得尤为重要。
本 文使 用 强 化 学 习 ( )0 ) 机 制 将抽 取器 (摘 要抽
取)和生成器(摘要生成)连接起来进行端到端的训练。使用句子级奖励优化
抽取器同时保持最大似然(180#"510)训练的生成解码器固定
从 而 获 得 两 全 其 美 的 结 果 。 首 先 使 用 抽 取 器 代 理 选 择 关 键 句 然 后 使 用
模型
依次改写这些抽取的句子。为了克服抽取器的不可微分度量
和训练本文对没有进行标注的原始文档 -摘要对使用具有句子级度量奖励的
-, 策略梯度连接这两个神经网络并学习句子重要性。本文的句子级强
化学习考虑了单词-句子层次结构可以更好地模拟语言结构并使并行化成为可能。
因此本文结合生成式方法中简洁地重写句子并从词汇表中产生新词汇的优点同
时采用抽取行为提高整体模型的质量、速度和稳定性。
本文的创新与贡献主要包括以下三点。
()提出一种中文专利摘要改写模型 )0,&)。该模型结合了专利特点、
专利术语词表基于自动文摘技术融合专利摘要和说明书内容重新生成新的摘要
实现中文专利摘要的改写。
()提出基于强化学习连接抽取式和生成式的自动摘要模型结合了抽取式
和 生 成 式 方 法 的 优 势 。 该 模 型 在 一 个 中 药 材 专 利 摘 要 数 据 集 多 个 版 本 的
)7:!-、)7:!-、)7:!-0 指标上达到了较好的效果有效地利用了词
汇、句子层次结构融合了词汇特征和句子语义信息。
()针对中药材专利领域文本)0,&) 模型生成的摘要与人工摘要具有
高度的语义相关性。
3 RLCPAR:基于强化学习的中文专利摘要改写模型
本文将给定的长文本文档概括为若干有序关键句的任务 然后将这些关键句
组合成一个多句子摘要。抽取器从文档中顺序抽取重要的句子然后将这个关键
句子集通过生成器改写成摘要。 )0,&) 模型是将这两个子模块用强化学习机
制连接起来而形成的如图
所示。
图
图 1中文专利摘要改写框架
剩余14页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3577
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Matlab人脸肤色定理的教师人数统计+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于Matlab霍夫曼变换的表盘读数识别+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于Matlab火灾烟雾检测源码带GUI界面+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于Matlab的恶劣天气交通标志识别系统+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于MATLAB的霍夫曼变换的表盘示数识别+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于Matlab的车道线识别系统 +源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于MATLAB的教室人数统计系统带Gui界面+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于MATLAB的教室人数统计系统带Gui界面+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于MATLAB 的霍夫曼变换答题卡识别源码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于Matlab+bp神经网络的神经网络汉字识别系统+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功