这年头学爬虫还就得会点scrapy框架资源-CSDN文库

88 浏览量 2020-12-21 14:01:01 上传评论收藏 1.19MB PDF 举报

Hello，我是 Alex 007，为啥是007呢？因为叫 Alex 的人太多了，再加上每天007的生活，Alex 007就诞生了。这几天一直在练车，只能在中间休息的时候写一写博客，可怜去年报的名到现在还没有拿到小本本，当然练车只是副技能，主技能还是coding，不断学习才能不被淘汰。最近在学爬虫的 scrapy 框架，以前虽然拿 GoLang 玩过爬虫，可惜没有太深入，这次拿 Python 好好学一学。学习爬虫过程中的代码都放在了GitHub上：https://github.com/koking0/Spider 小生才疏学浅，如有谬误，恭请指正。文章目录一、初探 Scrapy1.Sc 【Scrapy 框架详解】 Scrapy 是一个强大的 Python Web 爬虫框架，它提供了高效的网页抓取和数据提取功能，适用于多种用途，包括数据挖掘、网站监控和自动化测试。Scrapy 的核心特性包括多线程爬取、中间件处理、请求/响应对象模型以及灵活的数据流处理。 **一、Scrapy 的安装** 安装 Scrapy 非常简单，只需要在命令行中运行以下 Python 的包管理工具 pip： ```bash pip install scrapy ``` 确保你的 Python 环境已经配置好，并且 pip 已经更新到最新版本。 **二、创建第一个 Scrapy 项目** 1. 通过命令行创建一个新的 Scrapy 项目： ```bash scrapy startproject my_first_spider ``` 这将在当前目录下创建一个名为 `my_first_spider` 的项目结构。 2. 接下来，进入项目目录： ```bash cd my_first_spider ``` 3. 创建一个爬虫： ```bash scrapy genspider example example.com ``` 这将生成一个名为 `example` 的爬虫，目标是 `example.com`。 4. 编辑 `spiders/example.py` 文件，定义爬虫逻辑，例如使用 `start_requests()` 方法定义起始 URL 和 `parse()` 方法解析响应。 **三、基本操作** **1. 持久化存储** - **基于终端指令的持久化存储**：可以使用 Scrapy 的命令行选项 `-o` 或 `-O` 将爬取的数据导出为 JSON、XML 或 CSV 文件。 - **基于管道的持久化存储**：自定义 `pipelines.py` 中的类，处理爬取到的数据，例如将数据存入数据库或进行清洗。 **2. 全站数据爬取与请求传参** - 使用 `scrapy.Request` 发送带有参数的 HTTP 请求，参数可以通过 `meta` 字典传递。 - `scrapy.spiders.CrawlSpider` 类允许定义规则（`rules`）来自动跟踪页面链接，实现全站爬取。 **3. 图片下载** Scrapy 内置了图片下载器中间件（`scrapy.pipelines.ImagesPipeline`），可以方便地下载网页上的图片并进行处理，如指定保存路径、大小限制等。 **四、Scrapy 的核心组件** - **Engine（引擎）**：负责调度请求和发送它们到下载器，同时接收下载器返回的响应，并将其发送到蜘蛛进行处理。 - **Downloader（下载器）**：负责获取网络上的数据，通常使用异步方式。 - **Spiders（蜘蛛）**：编写爬虫逻辑的地方，用于解析响应并生成新的请求。 - **Items（项目）**：定义要爬取的数据结构。 - **Pipelines（管道）**：处理蜘蛛返回的项，例如数据清洗、验证和存储。 - **Middleware（中间件）**：在请求/响应之间提供额外的处理逻辑。在 Scrapy 中，数据流大致如下：引擎 → 下载器 → 蜘蛛 → 管道。这个过程中，中间件可以在每个阶段对数据进行预处理或后处理。在实际使用中，Scrapy 提供了丰富的功能，如错误处理、速率限制、IP 换代理等。它还支持分布式爬虫，可以通过 Scrapy Cluster 或 Scrapy Cloud 扩展到多个机器上运行。 Scrapy 以其高效、模块化的设计，为开发者提供了强大而便捷的爬虫开发环境。不论你是初学者还是经验丰富的开发者，掌握 Scrapy 都能显著提升你的爬虫开发效率。

资源推荐

资源详情

资源评论

这年头学爬虫还就得会点这年头学爬虫还就得会点 scrapy 框架框架

Hello，我是 Alex 007，为啥是007呢？因为叫 Alex 的人太多了，再加上每天007的生活，Alex 007就诞生了。

这几天一直在练车，只能在中间休息的时候写一写博客，可怜去年报的名到现在还没有拿到小本本，当然练车只是副技能，主技能还是coding，不断学习才能不被淘汰。

最近在学爬虫的 scrapy 框架，以前虽然拿 GoLang 玩过爬虫，可惜没有太深入，这次拿 Python 好好学一学。

学习爬虫过程中的代码都放在了GitHub上：https://github.com/koking0/Spider

小生才疏学浅，如有谬误，恭请指正。

文章目录文章目录一、初探 Scrapy1.Scrapy 的安装2.第一个 scrapy 项目二、基本操作1.持久化存储（1）基于终端指令的持久化存储（2）基于管道的持久化存储2.全站数据爬取请求传参3.图

片下载

一、初探一、初探 Scrapy

先来看一下官网的定义：

Scrapy is a fast high-level web crawling and web scraping framework, used to crawl websites and extract structured data from their pages.

Scrapy是一个快速的高级web抓取框架，用于抓取网站和从网页中提取结构化数据。

It can be used for a wide range of purposes, from data mining to monitoring and automated testing.

它可以用于广泛的用途，从数据挖掘到监控和自动化测试。

from

2020-04-09 21:48:47 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

抗击肺炎 https://voice.baidu.com/act/newpneumonia/newpneumonia/?from=osari_pc_1

新闻 http://news.baidu.com

hao123 https://www.hao123.com

地图 http://map.baidu.com

视频 http://v.baidu.com

贴吧 http://tieba.baidu.com

学术 http://xueshu.baidu.com

设置 http://www.baidu.com/gaoji/preferences.html

更多产品 http://www.baidu.com/more/

2020-04-09 21:48:47 [scrapy.core.engine] INFO: Closing spider (finished)

2020-04-09 21:48:47 [scrapy.statscollectors] INFO: Dumping Scrapy stats:

{‘downloader/request_bytes’: 732,

‘downloader/request_count’: 2,

‘downloader/request_method_count/GET’: 2,

‘downloader/response_bytes’: 53325,

‘downloader/response_count’: 2,

‘downloader/response_status_count/200’: 1,

‘downloader/response_status_count/302’: 1,

‘elapsed_time_seconds’: 0.491685,

‘finish_reason’: ‘finished’,

‘finish_time’: datetime.datetime(2020, 4, 9, 13, 48, 47, 901362),

‘log_count/DEBUG’: 2,

‘log_count/INFO’: 10,

‘response_received_count’: 1,

‘scheduler/dequeued’: 2,

‘scheduler/dequeued/memory’: 2,

‘scheduler/enqueued’: 2,

‘scheduler/enqueued/memory’: 2,

‘start_time’: datetime.datetime(2020, 4, 9, 13, 48, 47, 409677)}

2020-04-09 21:48:47 [scrapy.core.engine] INFO: Spider closed (finished)

scrapy 给我们输出了很多很多东西，我们的打印结果被放在了中间，其它的内容其实是日志信息，scrapy 帮我们自动生成了日志，如果你觉得碍眼的话，可以通过 settings.py 文件

中的设置只保留错误信息：

LOG_LEVEL = 'ERROR'

二、基本操作二、基本操作

接下来了解一下 scrapy 框架的一些基本操作，比如爬取数据的持久化存储啦，对网站的全站爬取啦还有图片下载等功能。

1.持久化存储持久化存储

爬取到的数据只有保存到本地的电脑上才是自己的，不然只在内存里，用完就没了。

（（1）基于终端指令的持久化存储）基于终端指令的持久化存储

在前边的小试牛刀中我们可以看到控制台的输出，其实基于终端指令的持久化存储就是将终端的输出结果重定向到一个本地文件中。

使用基于终端指令的持久化存储必须保证爬虫文件中的 parse 方法中有可迭代对象返回，通常是列表或者字典。

我们把爬取百度顶部菜单栏的爬虫 parse 方法升级一下：

def parse(self, response):

# xpath 为 response 的方法，可以直接写 xpath 表达式

aList = response.xpath('//*[@id="u1"]/a')

data = {}

for item in aList:

name = item.xpath('.//text()')[0].extract()

url = item.xpath('./@href')[0].extract()

data[name] = url

return data

然后在 settings.py 文件中写一下文件编码的配置，保证使用的是 utf-8 编码方式：

FEED_EXPORT_ENCODING = 'UTF8'

接下来，在启动项目的时候可以用如下指令：

scrapy crawl baiDu -o baidu.json

这样就可以将爬取的结果持久化存储到 baidu.json 文件中：

类似的方法还有：

scrapy crawl spiderName-o xxxx.txt

scrapy crawl spiderName-o xxxx.xml

scrapy crawl spiderName-o xxxx.csv

（（2）基于管道的持久化存储）基于管道的持久化存储

使用终端保存文件的方式在 Windows 操作系统貌似不是很常见，Linux 下倒是正常操作。

scrapy 框架中集成了高效、便捷的持久化存储功能，并且在创建项目的时候也帮我们自动创建好了文件：

1.items.py：数据结构模板，定义存储数据的字段

2.pipelines.py：管道文件，接收数据(item)进行持久化存储

基于管道的持久化存储流程：

将爬虫文件爬取到的数据封装到 items 对象中

items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class FirstscrapyItem(scrapy.Item):

# define the fields for your item here like:

name = scrapy.Field() # 存储菜单名

url = scrapy.Field() # 存储菜单 url

pass

使用 yield 将 items 对象提交给 pipelines 管道持久化存储

baiDu.py

def parse(self, response):

# xpath 为 response 的方法，可以直接写 xpath 表达式

aList = response.xpath('//*[@id="u1"]/a')

for data in aList:

# 将解析到的数据封装到 items 对象中

item = FirstscrapyItem()

item["name"] = data.xpath('.//text()')[0].extract()

item["url"] = data.xpath('./@href')[0].extract()

yield item

管道文件中的 process_item 方法接收并处理爬虫文件提交过来的 item 对象

pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

class FirstscrapyPipeline(object):

def __init__(self):

self.fp = None

def open_spider(self, spider):

"""开启爬虫时执行一次"""

print("爬虫启动！")

self.fp = open("data.txt", "w")

def process_item(self, item, spider):

self.fp.write(f'{item["name"]}:{item["url"]}\n')

剩余6页未读，继续阅读

评论收藏

内容反馈

weixin_38571878

粉丝: 5
资源: 935

这年头学爬虫还就得会点 scrapy 框架

python爬虫学习笔记-scrapy框架(2)

python爬虫学习笔记-scrapy框架(1)

scrapy爬虫框架

scrapy 爬虫框架

scrapy爬虫框架程序

pytcharm 搭建 scrapy爬虫框架

解析Python网络爬虫：核心技术、Scrapy框架、分布式爬虫全套教学资料

完整版Python网络爬虫之Scrapy爬虫框架使用案例教程含源代码共18页.pdf

Python爬虫框架Scrapy教程 完整版PDF

scrapy框架-表情包爬虫

爬虫scrapy框架小实例

Python笔记——scrapy爬虫框架

scrapy_Python的爬虫框架Scrapy_scrapy_

learning_scrapy:精通python爬虫框架scrapy

scrapy爬虫框架学习.docx

scrapy爬虫框架使用示例

精通Python爬虫框架Scrapy.pdf

爬虫开发阶段-爬虫基础-MongoDB数据库-爬虫Scrapy框架和案例.zip

基于scrapy框架的对新浪新闻爬虫

大数据爬虫技术第10章 初识爬虫框架Scrapy.ppt

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

代码以及其他_scrapy爬虫框架课程_scrapy_

Python scrapy 爬虫入门（二）scrapy 框架基础

mini-scrapy:基于gevent的mini-scrapy爬虫框架

scrapy爬虫框架的案例总结

Python网络爬虫之scrapy框架

Python程序设计：Scrapy爬虫框架的使用.pptx

Python爬虫框架Scrapy教程《PDF文档》

基于scrapy框架的智联招聘爬虫

最新资源

Python爬虫框架Scrapy教程完整版PDF

大数据爬虫技术第10章初识爬虫框架Scrapy.ppt