第26卷 第6期 湖 南 城 市 学 院 学 报 (自然科学版) Vol. 26 No.6
2017年11月 Journal of Hunan City Uni versity (Natural Science) Nov. 2017
收稿日期:2017-10-23
基金项目:益阳市科技计划项目(2014JZ40)
第一作者简介:何春辉(1991- ),男,湖南永州人,工程师,硕士,主要从事数据挖掘与信息处理研究﹒E-mail: xtuhch@163.com
改进的TextRank双层单文档摘要提取算法
何春辉
1
,李云翔
2
,王孟然
3
,王梦贤
4
(1. 湘潭大学 数学与计算科学学院,湖南 湘潭 411105;2. 湖南城市学院 理学院,湖南 益阳 413000;
3. 长沙县印山学校,长沙 410135;4. 湖南城市学院 管理学院,湖南 益阳 413000)
摘 要:本文提出了基于句子重要度的累积贡献率摘要句筛选算法和改进的TextRank双层单文档摘要提
取算法﹒摘要提取算法采用了分层结构,在不同层上融合了基于句子重要度的累积贡献率摘要句筛选算法,
同时使用了长句和短句两种不同分割方式相结合的策略来构建摘要提取算法﹒用手工整理的中文单文档摘要
数据集验证了算法的性能,结果表明:提取的摘要质量非常好﹒
关键词:TextRank;信息抽取;摘要算法;累计贡献率
中图分类号:TP391 文献标识码:A doi:10.3969/j.issn.1672-7304.2017.06.0012
文章编号:1672
–
7304(2017)06
–
0055
–
06
Improved TextRank Double Layers Single-document Summation Extracting
Algorithm
HE Chunhui
1
, LI Yunxiang
2
, WANG Mengran
3
, WANG Mengxian
4
(1. School of Mathematics and Computational Sciences, Xiangtan University, Xiangtan, Hunan 411105, China; 2. School of Science, Hunan
City University, Yiyang, Hunan 413000, China; 3. Yinshan School of Changsha County , Changsha, Hunan 410135,China; 4. School of
Management, Hunan City University, Yiyang, Hunan 413000, China)
Abstract: A summation sentence selection algorithm based on accumulating contribution rate of
sentence importance and an improved TextRank double layers single-document summation extraction
algorithm are proposed in this paper. The summation extraction algorithm adopts the hierarchical structure, on
the different layer, the summation sentence selection algorithm based on accumulating contribution rate of
sentence importance is blended, at the same time, using long sentences and short sentences in two different
ways to construct summation extraction algorithm. The manual finishing Chinese single-document summation
data set is used to verify the performance of the algorithm, the results show that the quality of the extraction
summation is very fine.
Key words: TextRank; information extraction; summation algorithm; accumulating contribution rate
随着信息技术的发展,文本数据出现了指数
级的增长趋势﹒面对如此丰富多样的信息,如何
从大量的文本内容中快速筛选出自己所需信息就
显得格外重要﹒文本摘要提取算法起源于 1958
年,最初由 IBM 公司的 H. P. Luhn
[1]
提出﹒国内
在摘要提取算法方面的研究起步较晚,早期的文
本摘要系统由王永成
[2]
教授在 1988 年研制成功﹒
通过对文献[3]的分析发现目前主流的文本自动
摘要提取算法主要分为了 2 大类:一类是生成式
摘要提取算法,它们对大规模数据集的依赖程度
很大,而且算法计算复杂度较高,目前还处于理
论研究阶段;另一类是抽取式摘要提取算法,该
类算法计算复杂度低、易操作,因此应用较广泛,
但算法通常是以单一句子为单元进行摘要抽取,
生成的摘要会包含一些噪声数据﹒
对于摘要句的筛选方式,目前主流的做法就
是根据句子的重要度进行降序排序,然后采用某
种指标来选取重要度排名靠前的句子进行合并来
生成文档的摘要﹒目前这些主流的摘要句筛选方
法还不是很成熟,不利于提取高质量的摘要﹒
为了克服现有算法的不足,在摘要句筛选方
面,提出了一个基于累积贡献率的摘要句筛选算
法;摘要提取算法方面,在经典 TextRank 算法基
础上提出了改进的 TextRank 双层单文档摘要提
评论0