没有合适的资源？快使用搜索试试~ 我知道了~

文库首页安全技术网络安全网络爬虫技术实现文档1

网络爬虫技术实现文档1

需积分: 0 0 下载量 111 浏览量 2022-08-03 14:23:20 上传评论收藏 1.52MB PDF 举报

温馨提示

试读

28页

2. 引擎从 Spider 中获取到第一个要爬取的 URL 并在调度器(Scheduler)以 3. 引擎向调度器请求下一个要爬取的 URL 4. 调度器返回下

资源详情

资源评论

网络爬虫

简要概述

该爬虫是基于 scrapy +redis + scrapyd 的分布式网络爬虫系统，实现从 4 个

不同的网站：智联招聘、智联卓聘、Boss 直聘、以及 51 招聘上爬取职位招聘信

息，包括：职位名称、职位链接、公司名称、工作地点、职位发布日期、职位招

聘人数、职位类型、公司简介、职位具体信息、公司规模、公司类型、公司行业、

公司地址、公司主页、专业要求等相关信息。最终将爬取数据存入到 MongoDB

数据库中，实现项目数据的获取任务。

具体实现

Scrapy

Scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可

以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了

页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取 API 所返回的

数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy 用

途广泛，可以用于数据挖掘、监测和自动化测试。Scrapy 使用了 Twisted 异步

网络库来处理网络通讯。整体架构大致如下：

组件-Scrapy Engine

引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事

件。

组件-调度器（Scheduler）

调度器从引擎接受 request 并将他们入队，以便之后引擎请求他们时提供给

引擎。

组件-下载器（Downloader）

下载器负责获取页面数据并提供给引擎，而后提供给 spider。

组件-Spiders

Spider 是 Scrapy 用户编写用于分析 response 并提取 item(即获取到的 item)

或额外跟进的 URL 的类。每个 spider 负责处理一个特定(或一些)网站。

组件-Item Pipeline

Item Pipeline 负责处理被 spider 提取出来的 item。典型的处理有清理、验证

及持久化(例如存取到数据库中)。

组件-下载器中间件（Downloader middlewares）

下载器中间件是在引擎及下载器之间的特定钩子(specific hook) ，处理

Downloader 传递给引擎的 response。其提供了一个简便的机制，通过插入自定

义代码来扩展 Scrapy 功能。

组件-Spider 中间件（Spider middlewares）

Spider 中间件是在引擎及 Spider 之间的特定钩子(specific hook)，处理 spider

的输入(response)和输出(items 及 requests)。其提供了一个简便的机制，通过插

入自定义代码来扩展 Scrapy 功能。

数据流（Data flow）

Scrapy 中的数据流由执行引擎控制，其过程如下:

1. 引擎打开一个网站(open a domain)，找到处理该网站的 Spider 并向该 spider

请求第一个要爬取的 URL(s)。

2. 引擎从 Spider 中获取到第一个要爬取的 URL 并在调度器(Scheduler)以

Request 调度。

3. 引擎向调度器请求下一个要爬取的 URL。

4. 调度器返回下一个要爬取的 URL 给引擎，引擎将 URL 通过下载中间件(请求

(request)方向)转发给下载器(Downloader)。

5. 一旦页面下载完毕，下载器生成一个该页面的 Response，并将其通过下载中

间件(返回(response)方向)发送给引擎。

6. 引擎从下载器中接收到 Response 并通过 Spider 中间件(输入方向)发送给

Spider 处理。

7. Spider 处理 Response 并返回爬取到的 Item 及(跟进的)新的 Request 给引擎。

8. 引擎将(Spider 返回的)爬取到的 Item 给 Item Pipeline，将(Spider 返回

的)Request 给调度器。

9. (从第二步)重复直到调度器中没有更多地 request，引擎关闭该网站。

通过以上对于 Scrapy 的基本了解，此项目的爬虫结构(结合 redis 后)如下图

所示：

（此项目是基于 Python2.7 版本）

在 spider 中编写不同网站所对应的爬虫代码，在 items.py 中定义每一个爬虫

的爬取字段，在 middlewares.py 中定义所要使用的中间插件，例如：用户代理

池、IP 代理池等等，在 pipelines.py 中编写每一个爬虫爬取下来存储信息的代码，

在 settings.py 中设置相关的组件以及申明。

其中主要了解一下 spider 文件中爬虫文件的结构：

利用 import 引入 scrapy 包，接着定义爬虫的 class 类，满足 scrapy.Spider

或 crawl .Spider 方法，然后为此爬虫设置一个独一无二的名字，赋值 name。然

后在 allowed_domains 中将所要爬取网站的域名填入。在 start_urls 中写入所要

爬取网站的 url 列表，之后的 parse 函数就会从 start_urls 的队列中取出 url 进行

访问并且获取相关信息，并解析。

在 parse 方法中，可以利用正则表达式、xpath、beautifulsoup 等等解析网

页的方法进行解析（可以混合使用），知道获取到我们所要找的信息，利用

yield 函数返回 item 就可以了。所以此项目是在这个基础上进行复杂化，但是

基本原理没有变化，唯独要注意的是，在解析网页的时候，由于每一个网页的

网页结构不一样，所以一个网站的解析方法只能试用与该网页，其余网页不可

以。在每一个网页解析过程中，同一网站中相同的网页可能有不同的结构，所

以需要多次与长期调试代码来尽可能适应所有页面。

剩余27页未读，继续阅读

评论收藏

内容反馈

网络爬虫技术实现文档1

评论0

最新资源

网络爬虫技术实现文档1

评论0

最新资源

相关推荐

基于java+Jsoup+HttpClient的网络爬虫技术的网络新闻分析系统设计与实现（源码+文档）网络爬虫_数据挖掘.zip

网络爬虫说明文档

网络爬虫论文答辩PPT课件

分布式网络爬虫的设计与实现应用分析文档.docx

大数据爬虫技术第2章 爬虫的实现原理和技术.ppt

基于python的网络爬虫爬取天气数据及可视化分析python大作业，课程设计报告

基于Python的网络爬虫的设计与实现.doc

Java网络爬虫代码

C++网络爬虫项目

沈阳理工大学基于java语言的网络爬虫毕业设计报告共43页.doc

毕业设计：Python web漏洞挖掘技术实现与研究（源码 + 数据库 + 说明文档）

Java实现的网络爬虫(蜘蛛)源码，可用作毕业设计，课程设计

用Python实现的网络爬虫示例.zip

Web爬虫的技术原理及实现机制

网络爬虫系统项目开发实践报告

基于Web的爬虫系统设计与实现.zip

基于python微博舆情分析可视化系统+爬虫+情感分析+Flask框架（包含文档+源码+部署教程）

JAVA与网络数据获取技术

爬虫.tar.gz

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

软件工程导论(第六版)课后习题答案1

大数据爬虫技术第2章爬虫的实现原理和技术.ppt