Python基于Scrapy-Redis分布式爬虫设计毕业源码案例设计
## 开发环境:Python + Scrapy框架 + redis数据库
## 程序开发工具: PyCharm
程序采用 python 开发的 Scrapy 框架来开发,使用 Xpath 技术对下载的网页进行提取解析,运用 Redis 数据库做分布式, 设计并实现了针对当当图书网的分布式爬虫程序,scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能:
scheduler - 调度器
dupefilter - URL去重规则(被调度器使用)
pipeline - 数据持久化
Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来。
而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule),并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码,将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。
没有合适的资源?快使用搜索试试~ 我知道了~
Python基于Scrapy-Redis分布式爬虫设计源码案例设计.zip
共14个文件
py:7个
pyc:4个
txt:1个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 36 浏览量
2024-04-20
08:27:12
上传
评论
收藏 20KB ZIP 举报
温馨提示
详情请查看资源内容中的使用说明
资源推荐
资源详情
资源评论
收起资源包目录
Python基于Scrapy-Redis分布式爬虫设计源码案例设计.zip (14个子文件)
Python_Scrapy_Distributed_Crawler
使用前必读.txt 1KB
book
book
__init__.py 0B
pipelines.py 296B
spiders
__init__.py 165B
dangdang.py 3KB
__pycache__
dangdang.cpython-36.pyc 2KB
__init__.cpython-36.pyc 156B
items.py 298B
settings.py 3KB
__pycache__
settings.cpython-36.pyc 603B
__init__.cpython-36.pyc 148B
middlewares.py 4KB
scrapy.cfg 262B
README.md 1KB
共 14 条
- 1
资源评论
熬夜写代码的平头哥
- 粉丝: 3085
- 资源: 7077
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功