没有合适的资源？快使用搜索试试~ 我知道了~

文库首页后端Pythonpython scrapy 企业级分布式爬虫开发架构模板

python scrapy 企业级分布式爬虫开发架构模板

共34个文件

py：26个

txt：3个

conf：2个

python

scrapy

分布式

爬虫

需积分: 5 0 下载量 87 浏览量 2024-04-29 18:24:55 上传评论收藏 20KB ZIP 举报

温馨提示

python scrapy 企业级分布式爬虫开发架构模板 python scrapy 开发企业级分布式爬虫开发架构，使用该架构可快速搭建分布式爬虫环境。相关技术使用scrapy_redis进行分布式爬虫操作。使用mongodb存储数据开发环境与生产环境的配置分离自动化部署爬虫脚本，爬虫部署采用scrapyd框架支持部署到docker中使用中间件自动处理随机user-agent 重写make_request_from_data，实现基于scrapy_redis的Feeding模式，可自定义发送请求 Scrapy==1.1.1 scrapyd==1.1.1 pymongo==3.3.1 redis==2.10.5 scrapy-redis==0.6.8 requests==2.12.4

资源推荐

资源详情

资源评论

收起资源包目录

爬虫开发企业级架构.zip （34个子文件）

scrapy.cfg 273B

devops

__init__.py 0B

util.py 880B

docker

scrapyd.conf 786B

pip.conf 93B

docker命令.txt 117B

Dockerfile 1KB

scrapyd_scheduling.py 361B

run.py 500B

scrapyd_deploy.py 10KB

scrapyd_cencel.py 402B

log.txt 0B

requirements.txt 95B

test

__init__.py 0B

main.py 492B

README.md 512B

project

__init__.py 0B

pipelines

__init__.py 0B

download_Images_Pipeline.py 1KB

json_writer_pipeline.py 425B

mongo_pipeline.py 923B

spiders

__init__.py 42B

huxiu

__init__.py 0B

huxiu_spider.py 4KB

FeedingSpider.py 1KB

middlewares

__init__.py 0B

rotate_user_agent_middleware.py 2KB

ajax_header_middleware.py 347B

proxy_middleware.py 3KB

http_util.py 615B

settings

__init__.py 0B

settings.py 355B

product.py 2KB

dev.py 2KB

共 34 条

## 简介 - python scrapy 开发企业级分布式爬虫开发架构，使用该架构可快速搭建分布式爬虫环境。 *** ## 相关技术 - 使用scrapy_redis进行分布式爬虫操作。 - 使用mongodb存储数据 - 开发环境与生产环境的配置分离 - 自动化部署爬虫脚本，爬虫部署采用scrapyd框架 - 支持部署到docker中 - 使用中间件自动处理随机user-agent - 重写make_request_from_data，实现基于scrapy_redis的Feeding模式，可自定义发送请求

评论收藏

内容反馈

资源评论