pythonscrapy爬虫+存储到mysql和mongo数据库中资源-CSDN文库

共2个文件

docx：2个

需积分: 6 107 浏览量 2022-12-08 20:26:47 上传评论收藏 1.62MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

python scrapy爬虫+存储到mysql和mongo数据库中.zip （2个子文件）

10 python scrapy爬虫 - 存储数据到数据库.docx 333KB

9 python scrapy爬虫.docx 1.3MB

1. Scrapy 架构

2. 主要部件

1. 引擎(Scrapy)

用来处理整个系统的数据流 (框架核心)

2. 调度器(Scheduler)

用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个 URL（抓取网页的网

址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

3. 下载器(Downloader)

用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy 下载器是建立在 twisted 这个高效的异步模型上的)

4. 爬虫(Spiders)

爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链

接,让 Scrapy 继续抓取下一个页面

5. 项目管道(Pipeline)

负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页

面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

6. 下载器中间件(Downloader Middlewares)

位于 Scrapy 引擎和下载器之间的框架，主要是处理 Scrapy 引擎与下载器之间的请求及响应。

7. 爬虫中间件(Spider Middlewares)

介于 Scrapy 引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。

8. 调度中间件(Scheduler Middewares)

介于 Scrapy 引擎和调度之间的中间件，从 Scrapy 引擎发送到调度的请求和响应。

3. Scrapy 运行流程大概如下

Scrapy 中的数据流由执行引擎控制，其过程如下:

1，引擎从 Spiders 中获取到最初的要爬取的请求（Requests）。

2，引擎安排请求（Requests）到调度器中，并向调度器请求下一个要爬取的请求（Requests）。

3，调度器返回下一个要爬取的请求（Requests）给引擎。

4 ，引擎将上步中得到的请求（ Requests ）通过下载器中间件（ Downloader Middlewares ）发送给下载器

（Downloader ），这个过程中下载器中间件（Downloader Middlewares）中的 process_request()函数会被调用到。

5，一旦页面下载完毕，下载器生成一个该页面的 Response，并将其通过下载中间件（Downloader Middlewares）发

送给引擎，这个过程中下载器中间件（Downloader Middlewares）中的 process_response()函数会被调用到。

6，引擎从下载器中得到上步中的 Response 并通过 Spider 中间件(Spider Middlewares)发送给 Spider 处理，这个过程中

Spider 中间件(Spider Middlewares)中的 process_spider_input()函数会被调用到。

7，Spider 处理 Response 并通过 Spider 中间件(Spider Middlewares)返回爬取到的 Item 及(跟进的)新的 Request 给引擎，

这个过程中 Spider 中间件(Spider Middlewares)的 process_spider_output()函数会被调用到。

8，引擎将上步中 Spider 处理的其爬取到的 Item 给 Item 管道（Pipeline），将 Spider 处理的 Request 发送给调度器，

并向调度器请求可能存在的下一个要爬取的请求（Requests）。

9，(从第二步)重复直到调度器中没有更多的请求（Requests）。

4. 安装 scrapy

4.1 修改 pip 的安装源路径

由于 Python 属于国外，所以在一些库的下载安装上会不太方便，所以这时候就需配置为国内源。

1）浏览器地址输入：%APPDATA%

2）然后找到或者创建 pip 文件夹

3）进入 pip 文件夹后，创建一个 pip.ini 文件，并修改添加一下内容后保存：

[global]

timeout = 6000

index-url = https://pypi.tuna.tsinghua.edu.cn/simple

trusted-host = pypi.tuna.tsinghua.edu.cn

4）然后升级 pip

python -m pip install --upgrade pip

注意：如果遇到下面黄色提示信息，那么就需要进行步骤 4)升级 pip,才能进行后面的操作

4.2 添加 scrapy 框架

1）安装命令：

cmd>pip install scrapy

2）在 pycharm 里面添加支持 scrapy

内容反馈

qq_41126680

粉丝: 14
资源: 16

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip