## 简介
- python scrapy 开发企业级分布式爬虫开发架构,使用该架构可快速搭建分布式爬虫环境。
***
## 相关技术
- 使用scrapy_redis进行分布式爬虫操作。
- 使用mongodb存储数据
- 开发环境与生产环境的配置分离
- 自动化部署爬虫脚本,爬虫部署采用scrapyd框架
- 支持部署到docker中
- 使用中间件自动处理随机user-agent
- 重写make_request_from_data,实现基于scrapy_redis的Feeding模式,可自定义发送请求
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
python scrapy 企业级分布式爬虫开发架构模板 python scrapy 开发企业级分布式爬虫开发架构,使用该架构可快速搭建分布式爬虫环境。 相关技术 使用scrapy_redis进行分布式爬虫操作。 使用mongodb存储数据 开发环境与生产环境的配置分离 自动化部署爬虫脚本,爬虫部署采用scrapyd框架 支持部署到docker中 使用中间件自动处理随机user-agent 重写make_request_from_data,实现基于scrapy_redis的Feeding模式,可自定义发送请求 Scrapy==1.1.1 scrapyd==1.1.1 pymongo==3.3.1 redis==2.10.5 scrapy-redis==0.6.8 requests==2.12.4
资源推荐
资源详情
资源评论
收起资源包目录
爬虫开发企业级架构.zip (34个子文件)
scrapy.cfg 273B
devops
__init__.py 0B
util.py 880B
docker
scrapyd.conf 786B
pip.conf 93B
docker命令.txt 117B
Dockerfile 1KB
scrapyd_scheduling.py 361B
run.py 500B
scrapyd_deploy.py 10KB
scrapyd_cencel.py 402B
log.txt 0B
requirements.txt 95B
test
__init__.py 0B
main.py 492B
README.md 512B
project
__init__.py 0B
pipelines
__init__.py 0B
download_Images_Pipeline.py 1KB
json_writer_pipeline.py 425B
mongo_pipeline.py 923B
spiders
__init__.py 42B
huxiu
__init__.py 0B
huxiu_spider.py 4KB
FeedingSpider.py 1KB
middlewares
__init__.py 0B
rotate_user_agent_middleware.py 2KB
ajax_header_middleware.py 347B
proxy_middleware.py 3KB
http_util.py 615B
settings
__init__.py 0B
settings.py 355B
product.py 2KB
dev.py 2KB
共 34 条
- 1
资源评论
程序媛小y
- 粉丝: 5613
- 资源: 94
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功