详解Python的爬虫框架Scrapy_python爬虫学习笔记-scrapy框架资源-CSDN文库

181 浏览量 2020-12-17 10:01:49 上传评论收藏 125KB PDF 举报

资源详情

资源评论

资源推荐

详解详解Python的爬虫框架的爬虫框架 Scrapy

网络爬虫，是在网上进行数据抓取的程序，使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序，

但是使用框架可以大大提高效率，缩短开发时间。Scrapy是一个使用Python编写的，轻量级的，简单轻巧，并且使用起来非

常的方便。

一、概述一、概述

下图显示了Scrapy的大体架构，其中包含了它的主要组件及系统的数据处理流程（绿色箭头所示）。下面就来一个个解释每

个组件的作用及数据的处理过程（注：图片来自互联网）。

二、组件二、组件

1、、Scrapy Engine（（Scrapy引擎）引擎）

Scrapy引擎是用来控制整个系统的数据处理流程，并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。

2、、Scheduler（调度）（调度）

调度程序从Scrapy引擎接受请求并排序列入队列，并在Scrapy引擎发出请求后返还给他们。

3、、Downloader（下载器）（下载器）

下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。

4、、Spiders（蜘蛛）（蜘蛛）

蜘蛛是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类，每个蜘蛛都能处理一个域名或一组域名。换句

话说就是用来定义特定网站的抓取和解析规则。

蜘蛛的整个抓取流程（周期）是这样的：

首先获取第一个URL的初始请求，当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法。该方法默认

从start_urls中的Url中生成请求，并执行解析来调用回调函数。

在回调函数中，你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调，然后被Scrapy

下载，然后有指定的回调处理。

在回调函数中，你解析网站的内容，同程使用的是Xpath选择器（但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程

序），并生成解析的数据项。

最后，从蜘蛛返回的项目通常会进驻到项目管道。

5、、Item Pipeline（项目管道）（项目管道）

项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目，他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后，

将被发送到项目管道，并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们

获取了项目并执行他们的方法，同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

评论0

内容反馈

weixin_38719564

粉丝: 2
资源: 914

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip