没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
蜘蛛侠 基于scrapy-redis的通用分布式爬虫框架 目录 demo采集效果 爬虫元数据 集群模式 独立模式 附件下载 kafka实时采集监控 功能 自动建表 自动生成爬虫代码,只需编写少量代码即可完成分布式爬虫 自动存储元数据,分析统计和补爬都很方便 适合多站点开发,每个爬虫独立定制,互不影响 调用方便,可以根据传参自定义采集的页数以及启用的爬虫数量 扩展简易,可以根据需要选择采集模式,单机Standalone(替代)或分布式集群 采集数据落地方便,支持多种数据库,只需在spider中启用相关的管道 关系型 MySQL的 sqlserver Oracle PostgreSQL sqlite3 非关系型 基础 mongodb 弹性搜索 高清文件 蜂巢 数据文件,例如csv 反爬处理简易,已封装各种反爬中间件 随机UserAgent 定制请求头 定制饼干池 定制代理ip 在
资源推荐
资源详情
资源评论
收起资源包目录
spiderman-master.zip (46个子文件)
spiderman-master
test_html.py 2KB
SP_JOBS
job.py 4KB
zhifang_job.py 2KB
__init__.py 111B
zhifang_job_patch.py 3KB
kafka_mon.py 1KB
scrapy.cfg 247B
SP
pipelines
pipelines_clean.py 717B
pipelines_datafile.py 5KB
pipelines_file.py 2KB
pipelines_hbase.py 5KB
pipelines_elasticsearch.py 4KB
pipelines_mongodb.py 4KB
__init__.py 113B
pipelines_hdfs.py 6KB
pipelines_kafka.py 1KB
pipelines_rdbm.py 4KB
spiders
zhifang.py 6KB
__init__.py 161B
SPRedisSpider.py 2KB
items
items.py 936B
__init__.py 113B
zhifang_items.py 2KB
__init__.py 0B
settings.py 6KB
scrapy_redis_extensions.py 3KB
utils
cookies_tool.py 3KB
ctrl_redis.py 5KB
ctrl_hive.py 921B
ctrl_ssh.py 930B
__init__.py 0B
tool.py 4KB
base.py 994B
aes.py 5KB
bloom_dupefilter.py 3KB
middlewares
middlewares.py 4KB
__init__.py 113B
SPMiddleWare.py 6KB
easy_meta.py 4KB
requirements.txt 1KB
.gitignore 67B
execute_download.py 5KB
api.py 4KB
README.md 14KB
easy_scrapy.py 17KB
download.py 7KB
共 46 条
- 1
越昆
- 粉丝: 21
- 资源: 4598
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
前往页