论文研究-新文本去重方法研究.pdf_论文数据去重英文资源-CSDN文库

自然语言处理

需积分: 8 32 浏览量 2019-08-20 16:53:12 上传评论收藏 655KB PDF 举报

资源推荐

资源详情

资源评论

http://www.paper.edu.cn

- 1 -

中国科技论文在线

新文本去重方法研究

聂洋

*

作者简介：聂洋（1983-）男 08 级硕士研究生主要研究方向为自然语言处理. E-mail: nybupt@gmail.com

（北京邮电大学计算机学院智能科学与技术中心北京 100876）

摘要：本文通过引入通常见于英文领域的 LCS 方法来计算近似文本相似度进行去重。文章

主要通过分析随机抽取的网页数据文件，对比常用的 VSM 去重算法，最后可以看出，引入

的 LCS 去重方法确实具有很大的提升空间，使用这个方法对数据进行去重是有效而且具有

比较好的时间和空间复杂度。

关键词：自然语言处理；去重；近似文本；LCS；

中图分类号：TP391.1

New Solution for Near-duplicated Documents Detection

nieyang

(Center for Intelligence Science and Technology Research (CISTR), School of Computer Science

and Technology, Beijing 100876)

Abstract: In this paper, I apply one method usually used in English near-duplicated document

detection to Chinese field. By analyzing random selected webpages, the result of algorithm of

LCS(longgest common sequence) is much better than the classic VSM. The comparison of the two

algorithm also prove that: the complexity of time and space of LCS is acceptable for the lage scale

computation.

Key words: NLP; duplicate removal; near-duplicate documents; LCS;

0 引言

随着因特网的迅速发展，越来越多的信息出现在互联网上。信息规模无限，而人们的精

力有限，搜索引擎技术的产生，使得人们能够以最快的速度找到需要的信息。然而，互联网

上存在大量的重复信息，降低了搜索引擎的效率，使资源检索的效果大打折扣。如何快速，

准确地去除重复的文本信息是一个重要的研究课题。由于大部分的重复信息都是通过直接或

间接复制产生的，所以文本去重有时也被称为文本复制检测。

文本去重一般用于两个方面：大规模信息中有效信息的提取和复制检测。所谓大规模信

息中有效信息的提取指的是大规模数据源中存在大量相同，相似的信息，人工处理起来费时

费力，而用系统粗过滤之后会得到一个比较纯净的样本库供后续工作的使用。复制检测的应

用主要在于商业和学术剽窃上，通过文本的比对，得到文本的一个大体相似度，来对人工比

对提供可行性参考。

随着近年来互联网技术和规模的空前发展, Internet 已经成为获取信息的主要渠道之

一. 搜索引擎因其方便快捷的检索功能成为当今网络用户进行信息检索的主要工具,而其中

数据下载器的下载质量及其工作效率将直接影响到搜索引擎的整体性能. 据统计,目前

Internet 重复网页约占 30 %～45 % . 有些搜索引擎是将近似内容进行聚类,但其中大部分是

内容略有不同的转载内容. 下载及索引这些重复内容既占用网络带宽又浪费资源. 而更为重

要的是,面对海量数据,用户也不希望看到一堆内容相同或近似的检索结果. 可见去重很有必

要.

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余7页未读，立即下载

内容反馈

weixin_39840650

粉丝: 409
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip