没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
2018 年 6 月 Chinese Journal of Network and Information Security June 2018
2018048-1
第 4 卷第 6 期 网络与信息安全学报 Vol.4
No.6
文本摘要研究进展与趋势
明拓思宇,陈鸿昶
(国家数字交换系统工程技术研究中心,河南 郑州 450002)
摘 要:随着互联网上的信息呈爆炸式增长,如何从海量信息中提取有用信息成了一个关键的技术问题。文
本摘要技术能够从大数据中压缩提炼出精炼简洁的文档信息,有效降低用户的信息过载问题,成为研究热点。
分类整理分析了近些年来国内外的文本摘要方法及其具体实现,将传统方法和深度学习摘要方法的优缺点进
行了对比分析,并对今后的研究方向进行了合理展望。
关键词:大数据;文本摘要;机器学习;传统方法;深度学习
中图分类号:TP393
文献标识码:A
doi: 10.11959/j.issn.2096-109x.2018048
Research progress and trend of text summarization
MING Tuosiyu, CHEN Hongchang
National Digital Switching System Engineering & Technological R&D Center, Zhengzhou 450002, China
Abstract: With the explosive growth of information on the Internet, how to extract useful information from massive
information has become a key technical issue. The text summarization technology can compress and extract refined
and concise document information from big data, effectively reducing the user information overload problem, and it
has become a research hotspot. The domestic and foreign text summarization methods and their concrete realization
in recent years were analyzed, the advantages and disadvantages between traditional methods and deep learning
summary methods were compared, and a reasonable outlook for future research directions was made.
Key words: big data, text summarization, machine learning, traditional methods, deep learning
1 引言
文本摘要是一种从一个或多个信息源中抽
取关键信息的方法,它帮助用户节省了大量时
间,用户可以从摘要获取到文本的所有关键信息
点而无需阅读整个文档。文本摘要是一个典型的
文本压缩任务。随着信息化时代的到来,人们变
得越来越依赖互联网获取所需要的信息。但是随
着互联网的发展,其上的信息呈现爆炸式增长,
如何有效地从海量信息中筛选出所需的有用信
息成了关键性的技术问题。因为涉及深层次的自
然语言处理的能力,所以一直以来它都是个任务
难点。自动文本摘要技术对文档信息进行有效的
压缩提炼,帮助用户从海量信息中检索出所需的
相关信息,避免通过搜索引擎来检索可能产生过
多冗余片面信息的问题,有效地解决了信息过载
的问题。
文本摘要有多种分类方法,按照摘要方法划
收稿日期:2018-05-02;修回日期:2018-06-01
通信作者:明拓思宇,1139446336@qq.com
基金项目:国家自然科学基金青年科学资助项目(No.61601513)
Foundation Item: The National Natural Science Foundation of Youth Science (No.61601513)
·2· 网络与信息安全学报 第 4 卷
2018048-2
分可以分为抽取式摘要
[1]
方法和生成式摘要
[2]
方
法。抽取式摘要方法通过抽取文档中的句子生成
摘要,通过对文档中句子的得分进行计算,得分
代表重要性程度,得分越高代表句子越重要,然
后通过依次选取得分最高的若干个句子组成摘
要,摘要的长度取决于压缩率。生成式摘要方法
不是单纯地利用原文档中的单词或短语组成摘
要,而是从原文档中获取主要思想后以不同的表
达方式将其表达出来。生成式摘要方法为了传达
原文档的主要观点,可以重复使用原文档中的短
语和语句,但总体上来说,摘要需要用作者自己
的话来概括表达。生成式摘要方法需要利用自然
语言理解技术对原文档进行语法语义的分析,然
后对信息进行融合,通过自然语言生成的技术生
成新的文本摘要。
按照文档数量划分,可以分为单文档摘要
[3]
方法和多文档摘要
[4]
方法。单文档摘要方法是指
针对单个文档,对其内容进行抽取总结生成摘要;
多文档摘要方法是指从包含多份文档的文档集合
中生成一份能够概括这些文档中心内容的摘要。
按照文本摘要的学习方法可分为有监督
[5]
方
法和无监督
[6]
方法。有监督方法需要从文件中选
取主要内容作为训练数据,大量的注释和标签数
据是学习所需要的。这些文本摘要的系统在句子
层面被理解为一个二分类问题,其中,属于摘要
的句子称为正样本,不属于摘要的句子称为负样
本。机器学习中的支持向量机(SVM, support
vector machine)和神经网络也会用到这样分类
的方法。无监督
[7-8]
的文本摘要系统不需要任何
训练数据,它们仅通过对文档进行检索即可生
成摘要。
2 研究现状
本文按照时间的顺序,对研究文本摘要方法
的相关文献进行收集整理,对文本摘要方法的研
究进展进行简要的概括总结和分析。
2.1 基于统计学方法
抽取式文本摘要方法的关键问题是从原文档
中抽取出重要性高的若干句子
[9]
。研究初期是以
统计学为支撑,统计学的方法是基于统计特征,
如词频、句子中心性(即与其他句子的相似性)、
句子位置、句子与标题的相似性、句子的相对长
度等统计特征来生成摘要的。首先使用“词频”
这一简单的文本特征对文档的重要句子和词组进
行抽取生成,根据经验可知,除去停用词以外,
文中出现频率越高的单词,其重要性也就越高。
根据单词的词频高低分别设置相应的词权重,词
频越高,对应的权重也就越高;句子的权重是组
成句子单词的权重之和。然后从文档中抽取权重
高的单词和句子组成摘要,这就是简单的基于词
频的文本摘要方法。
句子在段落中的位置对句子的重要性影响很
大,根据经验可知,一个段落的首尾句成为概括
段落中心思想主题句的概率比其他位置句子的概
率要高。Baxendale 等
[10]
从句子位置的特征出发,
通过计算文档段落首尾句能够概括主题的主题句
概率,选取得分最高的若干句子生成文本摘要。
Edmundson 等
[11]
在研究中也指出,线索词(如“几
乎不”“不可能”等类似的特定词汇)对句子重要
性也起到了一定的影响作用。他们将词频、句子
位置、线索词、标题词等多个特征组合起来作为
衡量句子重要性的综合指标,在质量上取得了一
定的改善。
其他著名的方法有 TF-IDF(词频−逆向文件
频率),它是由 Salon 最先提出的
[12]
,这种统计的
方法通过词频和逆向文件频率共同评估一个词在
一个文件集或语料库中的重要程度,字词的重要
性随着它在文件中出现的次数成正比增加,但同
时会随着它在语料库中出现的频率成反比下降。
利用 TF-IDF 生成文本摘要的基本思路是通过背
景语料统计出各个词的 TF-IDF 值,将其作为重
要性得分的权值,接着根据各个词的 TF-IDF 值
累加求和计算得到段落中各个句子的 TF-IDF 值,
将其作为该句的重要性得分,然后将句子按照重
要性得分排序,依据文本摘要的大小依次选取重
要性得分从高到低的若干个句子组成摘要。这种
算法在词频算法的基础上引入一个逆文档因子,
它能够有效地区分出高频无效词,在一定基础上
改进了一般词频算法。其后,基于 TF-IDF 的方
法被广泛应用于单词的重要性识别
[13-16]
。
El-Beltagy 等
[17]
提出了提取关键词性能最好的
系统 SemEval2010,它利用词频等统计特征过滤
剩余9页未读,继续阅读
资源评论
weixin_38681082
- 粉丝: 5
- 资源: 958
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 钓鱼邮件的概要介绍与分析
- mysql的概要介绍与分析
- docker的概要介绍与分析
- 图吧工具箱202405版本绿色安装包
- 基于python无人艇轨迹预测系统检查 框架html + css + jquery + python + django + orm + pytorch
- (全新整理)1980-2023年中国就业数据2.0(全国、省、地级市)
- 基于springboot的家具销售电商平台lw+ppt
- C++编程实验:几何计算与基本算术运算方法实现及应用
- 音乐播放器源码+可执行程序+测试音乐+截图 快速实现一个音乐播放器,功能如下: 1,播放本地音乐文件 2,有播放、暂停、下一曲、上一曲功能,显示歌曲列表信息 3,显示播放时间进度 4,拖
- 【回退N帧ARQ】模拟代码及报告
- 谭浩强-C程序设计(第五版)PPT-源码-习题答案-习题库
- 基于springboot的教师人事档案管理系统lw+ppt
- win32汇编环境,怎么进行加法运算的
- QT 下拉菜单设置参数 起始端口和结束端口
- 数据仓库与数据挖掘-魏伟一
- (全新整理)2010-2023年中国省级新质生产力水平:数据+dofile+结果
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功