没有合适的资源？快使用搜索试试~ 我知道了~

文库首页安全技术网络安全10.python scrapy爬虫1

10.python scrapy爬虫1

python

scrapy

爬虫

需积分: 0 0 下载量 5 浏览量 2022-08-08 20:56:26 上传评论收藏 830KB DOCX 举报

温馨提示

试读

11页

安装scrapyPip install scrapy等创建项目E:\workspace_code\workspace_py>scrapy startprojec

资源详情

资源评论

资源推荐

1. Scrapy 架构

2. 主要部件

1. 引擎(Scrapy)

用来处理整个系统的数据流 (框架核心)

2. 调度器(Scheduler)

用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个 URL（抓取网页的网

址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

3. 下载器(Downloader)

用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy 下载器是建立在 twisted 这个高效的异步模型上的)

4. 爬虫(Spiders)

爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链

接,让 Scrapy 继续抓取下一个页面

5. 项目管道(Pipeline)

负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页

面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

6. 下载器中间件(Downloader Middlewares)

位于 Scrapy 引擎和下载器之间的框架，主要是处理 Scrapy 引擎与下载器之间的请求及响应。

7. 爬虫中间件(Spider Middlewares)

介于 Scrapy 引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。

8. 调度中间件(Scheduler Middewares)

介于 Scrapy 引擎和调度之间的中间件，从 Scrapy 引擎发送到调度的请求和响应。

3. Scrapy 运行流程大概如下

Scrapy 中的数据流由执行引擎控制，其过程如下:

1，引擎从 Spiders 中获取到最初的要爬取的请求（Requests）。

2，引擎安排请求（Requests）到调度器中，并向调度器请求下一个要爬取的请求（Requests）。

3，调度器返回下一个要爬取的请求（Requests）给引擎。

4 ，引擎将上步中得到的请求（ Requests ）通过下载器中间件（ Downloader Middlewares ）发送给下载器

（Downloader ），这个过程中下载器中间件（Downloader Middlewares）中的 process_request()函数会被调用到。

5，一旦页面下载完毕，下载器生成一个该页面的 Response，并将其通过下载中间件（Downloader Middlewares）发

送给引擎，这个过程中下载器中间件（Downloader Middlewares）中的 process_response()函数会被调用到。

6，引擎从下载器中得到上步中的 Response 并通过 Spider 中间件(Spider Middlewares)发送给 Spider 处理，这个过程中

Spider 中间件(Spider Middlewares)中的 process_spider_input()函数会被调用到。

7，Spider 处理 Response 并通过 Spider 中间件(Spider Middlewares)返回爬取到的 Item 及(跟进的)新的 Request 给引擎，

这个过程中 Spider 中间件(Spider Middlewares)的 process_spider_output()函数会被调用到。

8，引擎将上步中 Spider 处理的其爬取到的 Item 给 Item 管道（Pipeline），将 Spider 处理的 Request 发送给调度器，

并向调度器请求可能存在的下一个要爬取的请求（Requests）。

9，(从第二步)重复直到调度器中没有更多的请求（Requests）。

4. 安装 scrapy

Pip install scrapy 等

5. 创建项目

E:\workspace_code\workspace_py>scrapy startproject movie

New Scrapy project 'movie', using template directory 'D:\\installrelease\\Anaconda3\\lib\\site-packages\\scrapy\\templat

es\\project', created in:

E:\workspace_code\workspace_py\movie

6. 创建爬虫

You can start your first spider with:

cd movie

genspider 生成爬虫命令

example 爬虫的名字

example.com 爬取的网站

scrapy genspider example example.com

剩余10页未读，继续阅读

内容反馈

whph

粉丝: 18
资源: 305

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

10.python scrapy爬虫1

评论0

最新资源

10.python scrapy爬虫1

评论0

python scrapy爬虫

python scrapy爬虫详解

scrapy框架下的python爬虫例子

python爬虫框架scrapy-0.10.2

python爬虫学习笔记-scrapy框架(1)

完整版Python网络爬虫之Scrapy爬虫框架使用案例教程含源代码共18页.pdf

完整版精品Python网络爬虫教程 数据采集 信息提取课程 12-实例4-股票数据定向Scrapy爬虫（共23页）.pptx

Python爬虫之路-scrapy爬虫框架课程

pythonscrapy爬虫实例Python爬虫Scrapy实例

我的毕业设计爬虫，python、scrapy

python scrapy 网络爬虫.zip

python+scrapy/urllib等爬虫示例

python scrapy爬虫-下载图片

python爬虫-scrapy-Mongo

Python程序设计：Scrapy爬虫框架的使用.pptx

Python Scrapy 爬虫框架demo

python scrapy 爬虫基础 分布式爬虫 scrapy 教程【5.3G】_python scrapy教程

Python网络爬虫教程 数据采集课程 10-Scrapy爬虫框架（共34页）.pptx

完整版精品Python网络爬虫教程 数据采集 信息提取课程 11-Scrapy爬虫基本使用（共32页）.pptx

python爬虫使用scrapy注意事项

python scrapy爬虫代码及填坑

scrapy_爬虫python_tailua9_python_百度图片爬虫_scrapy_

learning_scrapy:精通python爬虫框架scrapy

基于Python Scrapy爬虫框架实现的链家二手房数据爬取系统的设计与实现 毕业设计论文答辩用 1万+字 共41页.docx

python爬虫学习笔记-scrapy框架(2)

开源python网络爬虫框架Scrapy.pdf

完整版精品Python网络爬虫教程 数据采集 信息提取课程 全套PPT课件 共12个章节.rar

最新资源

完整版精品Python网络爬虫教程数据采集信息提取课程 12-实例4-股票数据定向Scrapy爬虫（共23页）.pptx

python scrapy 爬虫基础分布式爬虫 scrapy 教程【5.3G】_python scrapy教程

Python网络爬虫教程数据采集课程 10-Scrapy爬虫框架（共34页）.pptx

完整版精品Python网络爬虫教程数据采集信息提取课程 11-Scrapy爬虫基本使用（共32页）.pptx

基于Python Scrapy爬虫框架实现的链家二手房数据爬取系统的设计与实现毕业设计论文答辩用 1万+字共41页.docx

完整版精品Python网络爬虫教程数据采集信息提取课程全套PPT课件共12个章节.rar