# Python_Scrapy_Distributed_Crawler
Python基于Scrapy-Redis分布式爬虫设计毕业源码案例设计
## 开发环境:Python + Scrapy框架 + redis数据库
## 程序开发工具: PyCharm
程序采用 python 开发的 Scrapy 框架来开发,使用 Xpath 技术对下载的网页进行提取解析,运用 Redis 数据库做分布式, 设计并实现了针对当当图书网的分布式爬虫程序,scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能:
scheduler - 调度器
dupefilter - URL去重规则(被调度器使用)
pipeline - 数据持久化
Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来。
而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule),并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码,将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。
没有合适的资源?快使用搜索试试~ 我知道了~
Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis.zip
共14个文件
py:7个
pyc:4个
gitattributes:1个
需积分: 5 1 下载量 168 浏览量
2023-08-09
20:30:31
上传
评论
收藏 9KB ZIP 举报
温馨提示
基于java、jsp、servlet、mysql、springboot等技术构建的系统,适合毕设项目、课设作业。资源中的源码都是经过本地编译过可运行的,下载后按照文档配置好环境就可以运行。资源项目的难度比较适中,内容都是经过助教老师审定过的,应该能够满足学习、使用需求,如果有需要的话可以放心下载使用。
资源推荐
资源详情
资源评论
收起资源包目录
毕业设计+Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis.zip (14个子文件)
today_0801
.gitattributes 130B
book
book
__init__.py 0B
pipelines.py 285B
spiders
__init__.py 161B
dangdang.py 3KB
__pycache__
dangdang.cpython-36.pyc 2KB
__init__.cpython-36.pyc 156B
items.py 284B
settings.py 3KB
__pycache__
settings.cpython-36.pyc 603B
__init__.cpython-36.pyc 148B
middlewares.py 4KB
scrapy.cfg 251B
README.md 1KB
共 14 条
- 1
资源评论
独处东汉
- 粉丝: 392
- 资源: 822
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功