没有合适的资源?快使用搜索试试~ 我知道了~
ScrapyWithBloomFilter:一个带有bloom过滤器的scrapy项目
共35个文件
py:33个
cfg:1个
md:1个
需积分: 5 1 下载量 18 浏览量
2021-04-09
10:05:08
上传
评论
收藏 33KB ZIP 举报
温馨提示
让scrapy带上布隆过滤器 基于settings.py -> DUPEFILTER_CLASS 配置实现 1.只实现去重(BloomFilterRedis文件夹、BloomFilterRedis_ex文件夹) 实现的功能仅为利用redis实现去重,不能实现增量效果,适用于代爬取链接规律已知,可以构造url出来场景 BloomFilterRedis文件夹基于 BloomFilterRedis_ex文件夹基于 两个版本不同之处在于所选的hash函数不一样,默认位数组长度位 1 << 31 具体配置在目录下 settings.py 里有详细说明。 2.只实现去重(pybloom_live_file文件夹) 基于实现 配置方法在 settings.py,其余配置在 defaults.py BloomFileOperate 启动后,会自动启动一个线程进行bloom位数组的保存,目前未解决合理复制文
资源推荐
资源详情
资源评论
收起资源包目录
ScrapyWithBloomFilter-master.zip (35个子文件)
ScrapyWithBloomFilter-master
README.md 3KB
orange
count.py 843B
__init__.py 0B
scrapy.cfg 256B
orange
pybloom_live_file
__init__.py 0B
BloomFileOperate.py 2KB
BloomFromFilesDupeFilter.py 2KB
defaults.py 244B
spiders
__init__.py 161B
demo.py 2KB
__init__.py 0B
pipelines.py 264B
scrapy_redis_bloom
BloomRedisDupeFilter.py 3KB
scheduler.py 6KB
__init__.py 192B
spiders.py 7KB
pipelines.py 2KB
connection.py 3KB
utils.py 192B
dupefilter.py 4KB
picklecompat.py 242B
_scheduler.py 6KB
queue.py 4KB
defaults.py 830B
BloomfilterOnRedis.py 2KB
BloomFilterRedis_ex
BloomRedisDupeFilter.py 3KB
__init__.py 0B
connection.py 565B
BloomfilterOnRedis.py 2KB
BloomFilterRedis
BloomRedisDupeFilter.py 3KB
__init__.py 0B
GeneralHashFunctions.py 3KB
BloomFilterRedis.py 2KB
settings.py 3KB
items.py 265B
共 35 条
- 1
资源评论
80seconds
- 粉丝: 44
- 资源: 4568
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功