没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
基于Scrapy框架的网络
爬虫设计与实现
延时符
引言
延时符
本项目采用基于 Scrapy 框架的爬虫
技术,实现了对于当当网青春爱情文学
书籍的信息获取,其主要功能包括数据
挖掘,信息处理和存储历史数据,特点
是强大的扩展性,灵活的数据提取,高
效的并发处理。
目录
Contents
PART 2
设计思路
PART 3
代码实现
PART 4
结果测试分析
延时符
PART 1
概念简介
第一部分
概念简介
延时符
Scrapy爬虫框架
“5+2”结构
Scrapy中的数据流是由执行引擎控制的,如下所示:
1. 引擎从爬虫器中获取爬虫的初始请求对象(一个
或者多个)。
2. 引擎从调度器中调度请求对象并获取下一个要爬取
的请求对象。
3. 调度器返回下一个请求对象给引擎。
4. 引擎通过下载器中间件 (process_request())将请求
对象传递给下载器。
5. 一旦页面完成下载,下载器将生成一个响应对象,
然后通过下载器中间件传递给引擎
(process_response())。
6. 引擎从下载器获得响应对象后把它传递给爬虫器使
用爬虫器中间件处理,( process_spider_input())。
7. 爬虫器使用爬虫器中间件处理响应对象,然后返回
items和新的请求对象给引擎( process_spider_output())
。
8. 引擎,然后将处理过的请求对象传递给调度器并获
得后续要爬取的请求对象。
9. 这个过程(从第一步)一直重复直到调度器中没有
请求。
剩余16页未读,继续阅读
资源评论
W3nd4L0v3
- 粉丝: 391
- 资源: 14
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功