没有合适的资源?快使用搜索试试~ 我知道了~
基于神经网络的文本标题生成原型系统设计.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 171 浏览量
2022-07-14
11:07:41
上传
评论
收藏 1022KB DOCX 举报
温馨提示
试读
17页
基于神经网络的文本标题生成原型系统设计.docx
资源推荐
资源详情
资源评论
随着近几年互联网的发展,网络中的文本信息资源的数量呈现指数级增长。
根据中国互联网协会发布的《中国互联网发展报告 2019》,截至 2018 年底,我
国网页总数量已达到 2 816 亿,这些网页中所包含的信息覆盖了社会生活的各
个领域。然而这其中也包含了海量不规范的文本信息,例如市场上众多移动客
户端中自媒体文章的“标题党”,以及互联网中大量无标题的评论、微博等,这些
不规范的文本信息给人们带来了巨大的信息过载压力。为这些不规范的文本信
息生成一条简洁、切合原文表达的标题可以缓解信息过载压力,提高工作效率
并为相关部门监察社会舆论提供帮助。
实际工作中采用传统的人工总结编写标题的方式在耗费大量时间、人力成
本的同时难以应对每天产生的海量不规范文本。标题生成是以文本内容作为输
入,以标题作为输出的一种文本摘要任务的变体,因此通过标题生成技术可以高
效、经济地解决这一问题。
文献[1]通过词频、逆序文本频率等文本特征来计算文章中每一个句子作为
摘要的概率,研发出一种基于贝叶斯分类模型的自动文本摘要系统 DimSim。但
在自然 语言中 ,特征与特征之间并不是相互独立的,而是存在 某些内 部联系 ,因
此文献[2]使用决策树替换朴素贝叶斯分类器来构造新的摘要系统。文献[3]在
谷歌公司提出 PageRank
[4]
算法的基础上提出了 TextRank 算法来实现文本摘
要的生成。这些方法都是通过判断原始文本中各个单词或句子的重要程度,对
原文中语句进行重新排序,按照重要性的大小抽取原文中的语句来构成摘要的
抽取式技术。抽取式技术实现简单、快速,但是无法满足人们对于生成摘要准
确性和流畅性的要求。
随着近年来深度学习技术的发展,对文本内容进行整体的全面总结凝练,然
后生成摘要的生成式技术逐渐成为文本摘要任务的主流方法。抽取式技术仅仅
是抽取原文中的语句来构成摘要,而生成式技术则更加符合人类的阅读和思考
习惯,生成出来的摘要也更符合人工撰写摘要的规律。
文献[5]在新闻标题生成任务中应用 Seq2Seq(Sequence to Sequence)模
型取得了良好的效果。文献[6]在 Seq2Seq 模型的基础上引入了注意力机制,完
成了生成式的中文文本摘要生成。本文基于神经网络和生成式技术对中文文本
标题生成原型系统进行了设计与实现。
1 自然语 言的文本 表示
自然语言的 文本表示是指由 于计算机无 法直接识别语言 的符号文字
[7]
,因
此需要将这些符号文字转换为文本向量这种计算机可以进行运算的数学表达
形式。转换之后得到的文本向量一般包含语言的语法、语义等重要特征
[8]
。自
然语言处理技术经过长久的发展,形成了两种最主要的文本表示方法:离散表示
与分布式表示。
1.1 离散表示
在离散表示方法中,对于词典中的每一个词一般使用一个长度和词典总词
数大小相同的离散高维向量来表示词语。这个离散的高维向量中每一个元素都
对应词典中的某一个词,其中只有一个元素的数值为 1,其余均是 0,元素为 1 的
位置代表其对应词在词典中的位置。
利用离散向量的方式对文本进行表示的方法有两个弊端
[9]
:(1)离散表示方
法向量的维度随着词的数量增大而増大,具有超高的维度和极大的稀疏性,高维
度和稀疏性会产生自然语言处理中的“维数灾难”问题,占用较大的运算空间,增
加了神经网络的计算代价;(2)离散表示方法会导致任意两个词之间是相对独立
的,相当于给每个词分配一个 id,导致离散表示方式不能有效地表达词与词之间
的语义关系,无法表示语言复杂的语义信息
[10]
。在一定程度上离散表示是假设
了语义的单一性,即认为语义仅仅是一维的,然而实际上语义应该是多维的。例
如对于词语“家园”,有的人会联想到“安全”、“温馨”,有的人则会联想到“地球”、“环
境”。由于不同人对同一个词的理解存在着较大的差异,因此仅通过给每个词分
配一个 id 很难将词语放在合适的位置。此外,离散也无法衡量词语的相似性,即
使是同义词在离散表示上也会被表示为完全不同的向量。
1.2 分布式表示
自然语言中的词语并非是全部独立的,例如“宾馆”和“旅馆”,“母校”和“大学”,
它们具有一定的关联性和相似性。离散表示将每一个词看作一个完整独立的个
体,假设了语义的单一性,无法衡量词语之间的相似性。为了解决传统离散表示
方法的这一缺点,文献[11]提出了词向量(Word Vector)的概念。词向量又称为词
嵌入(Word Embedding),是指用一种低维的、连续实值向量的形式来表示词语
[12]
。通过用词向量对词语进行表示,可使每个词语都变为词典的 N 维向量空间
中的一个点。词向量可以有效解决传统离散表示的“维数灾难”问题。此外,不同
词语在 N 维向量空间对应的点与点之间有距离的远近关系,从而可以通过计算
对应点之间的距离得到词与词之间的语义关系。图 1 展示的是部分中文词向量
空间示意图。
图 1
图 1 部分词向量空间示意图
Figure 1. Schematic diagram of partial word vector space
从图 1 中可以看出,语义相关的词在词典向量空间中的相对位置较为接近,
例如“健康”和“预防”、“需求”和“增加”等。可以看出,相对于假设语义单一性的离
散表示,分布式表示可以有效地表达出词与词之间的联系。
2 带注意 力机制的 编码器 -解码器 标题生成网络模 型
剩余16页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3731
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功