没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
2016年 软 件 2016, Vol. 37, No. 01
第 37 卷 第 01 期
COMPUTER ENGINEERING & SOFTWARE
国际 IT 传媒品牌
作者简介:
单劼(
1990-
),男,硕士研究生,主要研究方向:计算机科学与技术;王纯,男,硕士生导师,高工,主要研究方向:智能网
和通信软件的理论与技术
浅谈布隆过滤器在内容管理系统中的应用
单劼
1
,王纯
2
(1.北京邮电大学 网络与交换技术国家重点实验室,北京 100876;2.东信北邮信息技术有限公司 北京 100191)
摘 要:内容管理系统的内容采集主要由爬虫进行搜集,但内容重复与否绝大多数情况下是根据内容所在的页面
URI 进行判定。作为一个完善的内容管理系统,必须具备对已有内容资源的识别功能。本文通过介绍布隆过滤器,并
与传统的判重方式进行对比,同时改进布隆过滤器并应用于内容管理系统的资源判重的功能中,解决了内存占用无限
增加,查询时间不断增长,记录内容无法删除等问题,实现了高效快速的资源判重。
关键词:计算机工程;布隆过滤器;内容管理系统;爬虫;哈希
中图分类号: TP399 文献标识码: A DOI:10.3969/j.issn.1003-6970.2016.01.008
本文著录格式:单劼,王纯. 浅谈布隆过滤器在内容管理系统中的应用[J].软件,2016,37(01):28-31
Application of Bloom Filter in CMS
SHAN Jie
1
,WANG Chun
2
(
1.State Key Laboratory of Network and Switching Technology
,
Beijing University of Posts and Telecommunications
,
Beijing 100876
,
China
;
2.Ebupt Information Technology Co.
,
Ltd.Beijing 100191
,
China
)
【Abstract】:The contents for CMS are mostly collected by web crawler,but whether it is redundant or not should be
judged according URI of the web pages.As a perfect CMS,it is necessary to have the ability to remove the duplicate
files.In this paper,Bloom Filter will be used to compare with a traditional key-value data structure—Hash Map,and
improved the filter.And at the same time,Bloom Filter solved the problem efficiently that memory as well as query time
unlimited increasing and unable to delete records that are already in collection.
【
Key words
】:
Computing project
;
BloomFilter
;
CMS
;
Crawler
;
Hash
0 引言
Web 信息的采集通常是利用网络爬虫等工具遍历
万维网,它把万维网看作一个以网页为节点,网页间
链接为边的超大规模有向图,然后利用图的遍历算法
对万维网进行遍历。在网络遍历的过程中,需要判断
待采集的页面是否已经采集过了,这就需要把已经采
集的网页地址记录下来,组成已采集网页地址集合(记
为:visited— set),当新的采集开始之前,首先判断其
地址是否在 visited—set 中,如在其中,表示网页已经
采集,否则采集网页,把网页地址放在 visited—set 中,
从而避免网页的重复采集,浪费资源。为了实现集合
中数据的快速查找,需要把 URL 映射为集合中的地
址,这就需要设计一种高效且冲突率低的散列算法;
同时由于万维网上网页数据的巨大,普通的 Hash 算
法已经不能满足空间的要求,所以更需要一种节约空
间的算法。
本文运用 Bloom Filter 设计了一种节省空间的大
规模数据表示和查找方式,应用到内容管理系统中,
以应对海量信息采集中判重的需求
[1]
,文中分析了布
隆过滤器相对于 HashMap 的优越之处,同时指出布隆
过滤器的使用条件和弱点,并针对本系统的自身特点
和需求,提出了一种针对过滤器的改进方案并予以实
现,运用到该系统中。
1 布隆过滤器
1.1 概念
布隆过滤器是一种空间和时间效率很高的随机访
问型数据结构,它利用位数组表示一个集合,并能判
断一个元素是否属于这个集合。Bloom Filter 看似简
洁,但这种高效是有一定代价的:在判断一个元素是
资源评论
weixin_38638033
- 粉丝: 5
- 资源: 940
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 技术资料分享STM32模拟EEPROM的使用和优化很好的技术资料.zip
- Servlet 客户端 HTTP 请求详解.pdf
- 技术资料分享Stm32寄存器与库函数概览(摘自固件库使用手册)很好的技术资料.zip
- 一款可在线播放多个免费听书站的Android应用程序.zip
- AssertionFailedError如何解决.md
- java.HttpClient与网络请求(解决方案).md
- 技术资料分享STM32固件库使用手册的中文翻译版很好的技术资料.zip
- 非常好的oracle性能优化技术内幕详解100%好用.7z
- 已停产 适用于 Android 平台的 Rrich 文本编辑器 Android富文本编辑器,暂停维护.zip
- 非常好的MySQL技术内幕详解100%好用.7z
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功