开源python网络爬虫框架Scrapy.pdf资源-CSDN文库

版权申诉

5星 · 超过95%的资源 84 浏览量 2022-07-01 23:32:03 上传评论 1 收藏 401KB PDF 举报

Scrapy 是一个强大的 Python 网络爬虫框架，它为开发者提供了构建高效、可扩展的网络爬虫所需的各种工具和组件。Scrapy 架构设计巧妙，利用 Twisted 异步网络库来处理网络通信，确保爬虫在处理大量网页时能够保持高效的性能。 Scrapy 的核心组件包括： 1. **Scrapy Engine（Scrapy 引擎）**：它是整个框架的控制中心，负责调度数据处理流程，并触发事务处理。引擎接收由调度器返回的请求，然后将网页内容传递给蜘蛛进行解析。 2. **Scheduler（调度器）**：调度器负责管理待处理的请求队列，当引擎需要新的请求时，它会从队列中取出并分发给下载器。 3. **Downloader（下载器）**：下载器是实际执行网页下载的组件，它获取引擎传递过来的URL，下载网页内容，并将内容返回给引擎。 4. **Spiders（蜘蛛）**：蜘蛛是用户自定义的类，用于解析网页内容，提取所需的数据（如URL和项目）。每个蜘蛛可以处理特定的域名或一组域名。蜘蛛的生命周期包括获取初始请求，解析网页，生成新的请求和项目，然后将项目传递给项目管道。 5. **Item Pipeline（项目管道）**：项目管道负责清洗、验证和存储从蜘蛛抽取的数据。它包含一系列处理步骤，如去除HTML噪声，检查数据完整性，去重，以及最终存储到数据库或其他持久化存储中。 6. **Downloader middlewares（下载器中间件）**：下载中间件是引擎与下载器之间的钩子，用于自定义请求和响应的处理逻辑。例如，它可以处理HTTP头部，进行反反爬虫策略，或者处理下载失败的情况。 7. **Spider middlewares（蜘蛛中间件）**：蜘蛛中间件则在引擎和蜘蛛之间工作，用于自定义响应输入和请求输出的处理。它可以用来修改或拦截请求，或者处理蜘蛛解析后的结果。 Scrapy 的工作流程大致如下：引擎从调度器中取出请求，传递给下载器下载网页；下载器将内容返回给引擎，引擎再将内容交给相应的蜘蛛进行解析；蜘蛛解析出新的请求和数据项，新的请求重新进入调度器，数据项则进入项目管道进行后续处理。 Scrapy 的这一设计使得开发者可以专注于编写解析规则和数据处理逻辑，而无需关心网络通信和数据流管理的复杂性，大大简化了网络爬虫的开发过程。同时，通过中间件机制，Scrapy 允许用户灵活地定制爬虫行为，以适应各种复杂的抓取需求。因此，对于Python开发者来说，Scrapy 是一个理想的选择，尤其适合构建大规模的网络数据抓取项目。

资源推荐

资源详情

资源评论

开源 python 网络爬虫框架 Scrapy

介绍：

所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法

不够专业，更专业的描述就是，抓取特定网站网页的 HTML 数据。不过由于一个

网站的网页很多，而我们又不可能事先知道所有网页的 URL 地址，所以，如何

保证我们抓取到了网站的所有 HTML 页面就是一个有待考究的问题了。

一般的方法是，定义一个入口页面，然后一般一个页面会有其他页面的 URL，于

是从当前页面获取到这些 URL 加入到爬虫的抓取队列中，然后进入到新新页面后

再递归的进行上述的操作，其实说来就跟深度遍历或广度遍历一样。

上面介绍的只是爬虫的一些概念而非搜索引擎，实际上搜索引擎的话其系统是相

当复杂的，爬虫只是搜索引擎的一个子系统而已。下面介绍一个开源的爬虫框架

Scrapy。

一、概述

Scrapy 是一个用 Python 写的 Crawler Framework ，简单轻巧，并且非常方便，

并且官网上说已经在实际生产中在使用了，不过现在还没有 Release 版本，可

以直接使用他们的 Mercurial 仓库里抓取源码进行安装。

Scrapy 使用 Twisted 这个异步网络库来处理网络通讯，架构清晰，并且包含了

各种中间件接口，可以灵活的完成各种需求。整体架构如下图所示：

蜘蛛是有 Scrapy 用户自己定义用来解析网页并抓取制定 URL 返回的内容的类，

每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取

和解析规则。

蜘蛛的整个抓取流程（周期）是这样的：

1. 首先获取第一个 URL 的初始请求，当请求返回后调取一个回调函数。第一

个请求是通过调用 start_requests()方法。该方法默认从 start_urls 中

的 Url 中生成请求，并执行解析来调用回调函数。

2. 在回调函数中，你可以解析网页响应并返回项目对象和请求对象或两者的

迭代。这些请求也将包含一个回调，然后被 Scrapy 下载，然后有指定的

回调处理。

3. 在回调函数中，你解析网站的内容，同程使用的是 Xpath 选择器（但是你

也可以使用 BeautifuSoup, lxml 或其他任何你喜欢的程序），并生成解

析的数据项。

4. 最后，从蜘蛛返回的项目通常会进驻到项目管道。

5、Item Pipeline（项目管道）

项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目，他的主要任务是

清晰、验证和存储数据。当页面被蜘蛛解析后，将被发送到项目管道，并经过几

个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的

Python 类。他们获取了项目并执行他们的方法，同时他们还需要确定的是是否

需要在项目管道中继续执行下一步或是直接丢弃掉不处理。

项目管道通常执行的过程有：

1. 清洗 HTML 数据

2. 验证解析到的数据（检查项目是否包含必要的字段）

3. 检查是否是重复数据（如果重复就删除）

4. 将解析到的数据存储到数据库中

6、Downloader middlewares（下载器中间件）

下载中间件是位于 Scrapy 引擎和下载器之间的钩子框架，主要是处理 Scrapy

引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展

Scrapy 的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的，

对 Scrapy 尽享全局控制的底层的系统。

7、Spider middlewares（蜘蛛中间件）

蜘蛛中间件是介于 Scrapy 引擎和蜘蛛之间的钩子框架，主要工作是处理蜘蛛的

响应输入和请求输出。它提供一个自定义代码的方式来拓展 Scrapy 的功能。蛛

中间件是一个挂接到 Scrapy 的蜘蛛处理机制的框架，你可以插入自定义的代码

来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。

剩余10页未读，继续阅读

内容反馈

版权申诉

m0_74166311

2023-08-25

这个资源内容超赞，对我来说很有价值，很实用，感谢大佬分享~

想要offer

粉丝: 4073
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip