没有合适的资源?快使用搜索试试~ 我知道了~
spider-roach:分布式定向抓取集群
共11个文件
py:8个
crawl:1个
md:1个
需积分: 9 0 下载量 131 浏览量
2021-04-12
10:00:12
上传
评论
收藏 12KB ZIP 举报
温馨提示
声明 本人自知精力与能力有限,欢迎志同道合之士送上您宝贵的建议与Patch! 关于 一个分布式定向抓取集群的简单实现。 目前实现功能 多线程下载,线程数可配置。 无需修改代码,按照规则添加配置就可以完成页面抽取、入库。 利用Redis的list作为抓取队列,zset作为已抓取集合。 支持分布式部署多个爬虫,Redis作为核心,mysql为存储,当然redis/mysql自身拥有各自的扩展方案。 TODO List KISS: Keep it simple & stupid! Supports cookies,and authentication. Write information into files (using protobuf??). INSTALL 确认安装Python2.7及依赖库: MySQLdb: http://sourceforge.net/projects/my
资源推荐
资源详情
资源评论
收起资源包目录
spider-roach-master.zip (11个子文件)
spider-roach-master
Utility.py 1KB
Logger.py 2KB
test.py 2KB
pipeline.py 5KB
downloader.py 2KB
settings.py 555B
scheduler.py 1KB
crawl 1KB
maps.cfg 7KB
README.md 3KB
base.py 6KB
共 11 条
- 1
资源评论
狛绝的追随者
- 粉丝: 23
- 资源: 4611
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功