没有合适的资源?快使用搜索试试~ 我知道了~
新文本去重方法研究,聂洋,,本文通过引入通常见于英文领域的LCS方法来计算近似文本相似度进行去重。文章主要通过分析随机抽取的网页数据文件,对比常用的VSM去
资源推荐
资源详情
资源评论
http://www.paper.edu.cn
- 1 -
中国科技论文在线
新文本去重方法研究
聂洋
*
作者简介:聂洋(1983-) 男 08 级硕士研究生 主要研究方向为自然语言处理. E-mail: nybupt@gmail.com
(北京邮电大学计算机学院智能科学与技术中心 北京 100876)
摘要:本文通过引入通常见于英文领域的 LCS 方法来计算近似文本相似度进行去重。文章
主要通过分析随机抽取的网页数据文件,对比常用的 VSM 去重算法,最后可以看出,引入
的 LCS 去重方法确实具有很大的提升空间,使用这个方法对数据进行去重是有效而且具有
比较好的时间和空间复杂度。
关键词:自然语言处理;去重;近似文本;LCS;
中图分类号:TP391.1
New Solution for Near-duplicated Documents Detection
nieyang
(Center for Intelligence Science and Technology Research (CISTR), School of Computer Science
and Technology, Beijing 100876)
Abstract: In this paper, I apply one method usually used in English near-duplicated document
detection to Chinese field. By analyzing random selected webpages, the result of algorithm of
LCS(longgest common sequence) is much better than the classic VSM. The comparison of the two
algorithm also prove that: the complexity of time and space of LCS is acceptable for the lage scale
computation.
Key words: NLP; duplicate removal; near-duplicate documents; LCS;
0 引言
随着因特网的迅速发展,越来越多的信息出现在互联网上。信息规模无限,而人们的精
力有限,搜索引擎技术的产生,使得人们能够以最快的速度找到需要的信息。然而,互联网
上存在大量的重复信息,降低了搜索引擎的效率,使资源检索的效果大打折扣。如何快速,
准确地去除重复的文本信息是一个重要的研究课题。由于大部分的重复信息都是通过直接或
间接复制产生的,所以文本去重有时也被称为文本复制检测。
文本去重一般用于两个方面:大规模信息中有效信息的提取和复制检测。所谓大规模信
息中有效信息的提取指的是大规模数据源中存在大量相同,相似的信息,人工处理起来费时
费力,而用系统粗过滤之后会得到一个比较纯净的样本库供后续工作的使用。复制检测的应
用主要在于商业和学术剽窃上,通过文本的比对,得到文本的一个大体相似度,来对人工比
对提供可行性参考。
随着近年来互联网技术和规模的空前发展, Internet 已经成为获取信息的主要渠道之
一. 搜索引擎因其方便快捷的检索功能成为当今网络用户进行信息检索的主要工具,而其中
数据下载器的下载质量及其工作效率将直接影响到搜索引擎的整体性能. 据统计,目前
Internet 重复网页约占 30 %~45 % . 有些搜索引擎是将近似内容进行聚类,但其中大部分是
内容略有不同的转载内容. 下载及索引这些重复内容既占用网络带宽又浪费资源. 而更为重
要的是,面对海量数据,用户也不希望看到一堆内容相同或近似的检索结果. 可见去重很有必
要.
资源评论
weixin_39840650
- 粉丝: 409
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功