没有合适的资源？快使用搜索试试~ 我知道了~

文库首页安全技术网络安全《网络数据采集》第4章课件201911221

《网络数据采集》第4章课件201911221

网络

需积分: 0 0 下载量 48 浏览量 2022-08-04 00:27:08 上传评论收藏 1.02MB PDF 举报

温馨提示

试读

39页

第4章 Web页面内容解析1 课前引导上一讲，我们介绍了简单网络爬虫的设计思路，以及如何根据URL获取web页面。这一讲，我们将介绍如何实现Web页面内容的解析

资源详情

资源评论

资源推荐

网络

爬

虫

与

数

据

采

集

课

程

第

章

Web

页

面

内

容

解

析

课

前

引

导

上一讲，我们介绍了简单网络爬虫的设计思路，以及如何根据URL获取web页面。

这一讲，我们将介绍如何实现Web页面内容的解析。

上

节

回

顾

使用urllib获取页面内容

使用requests获取页面内容

本

节

课

程

主

要

内

容

内容列表：

本节目标

实现Web页面内容解析的方法

文本内容的解析

类XML内容的解析

JSON数据的解析

OFFICE文档的解析

数据库文件的解析

本节总结

课后练习

3.1

本

节

目

标

本节课的主要目标在于：

了解Web内容的三种类型

能够通过分析，针对不同类型选择合适的解析方法；

能够根据实际需要，写出正则表达式，构建匹配方法，能够从文本中获取兴趣信息；

能够根据实际需要，编写xpath查询字符串，从类xml中提取兴趣信息；

能够使用json、pandas、python-docx等库提取json、word、excel和数据库中的数据，将其转换为

python数据结构数据。

重点内容：

文本内容的解析

类XML内容的解析

难点内容：

正则表达式解析文本

3.2

实

现

Web

页

面

内

容

解

析

的

方

法

3.2.1

知

识讲

解

当我们可以使用自定义的爬虫程序访问目标Web网页，获取Web页面内容之后，会发现其中仅有部分内

容是用户兴趣数据。这时，我们需要使爬虫程序能够“去粗取精”，换句话说，就是要对页面内容组成进

行解析，提取出用户兴趣数据。

如何实现内容解析呢？

在实践中，有3种基本思路：

第

一

种

，

全

局

解

析

方

法

。

这种方法根据构成Web文档树形标记结构，构建Web页面的全局DOM模型，将Web页面整体映射为内

存中的DOM对象。

这种方式的优点是内容完整、元素内部关系准确；而缺点是占用较多内存，处理速度较慢。

第

二

种

方

式

，

局

部

解

析

方

法

。

这种方式不在内存中构建Web页面的全局DOM对象，而是利用逐步加载文本的流式读取程序，提取局部

Web元素或文本。

这种方式比较适合处理较大Web文档，节约内存。

缺点是提取结果的准确性和完整性较第一种方式略弱。

第

三

种

方

式

，

适

应

性

方

法

。

适应性方法是结合前两种方法的混合型方法。

在解析前先预判目标Web文档的大小，然后根据一定的阈值，确定处理方式。例如，文档大小超过1MB

的Web页面，采用局部解析，而小于1MB这个阈值的Web页面，可以采用全局解析。

处

理

流

程

刚才，我们介绍了解析Web页面的基本思路，那么在具体处理时，应该怎么做呢？

首先我们要了解待处理的数据类型，对不同类型的数据采用不同的解析方法。一般来说，网络爬虫需要

解析的数据可以分为三类：

第一类是无结构的文本数据，例如常见的txt纯文本数据；

第二类是半结构化的标记型数据，例如HTML网页、Json数据、Xml文档、Yaml数据等等；

第三类是结构化的数据，例如关系数据库文件、Excel电子表格文件、Word文件等等；

针对不同类型的数据，需要不同的数据解析方法。这部分内容，我们将在下一小结重点介绍。

需要注意的是，我们这里讲的数据解析不是指对数据全局的理解，而是指在文档中找到用户兴趣内容并

提取出来。这是因为网络爬虫程序的关键目标是获取有价值的数据，而不是完成文档的语义级分析。

3.2.2

案

例

与

应

用

头条就是一个综合型的爬虫。

3.2.3

模

块

练

习与

答

案

练

习

网络爬虫需要解析的内容类型有哪些？

其它见习题集。

答

案

可以分为三类：

第一类是无结构的文本数据，例如常见的txt纯文本数据；

第二类是半结构化的标记型数据，例如HTML网页、Json数据、Xml文档、Yaml数据等等；

第三类是结构化的数据，例如关系数据库文件、Excel电子表格文件、Word文件等等。

3.2.4

内

容

小

结

这一小结，我们主要讲解了解析web页面内容的三种方法，分别是：

全局法

局部法

适应性方法

我们还介绍了三种类型的内容，对应这三种类型的解析方式是不同的。

无结构

半结构

结构化数据

3.3

文

本

内

容

的

解

析

在这一小结，我们主要介绍如何使用正则表达式来解析文本内容，即使用正则表达式对兴趣文本进行定

位和提取。

3.3.1

知

识讲

解

正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是

对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一

个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

给定一个正则表达式和另一个字符串，我们可以达到如下的目的：

一是给定的字符串是否符合正则表达式的过滤逻辑（这个过程可称为“匹配”）；

二是通过正则表达式，从文本字符串中获取我们想要的特定部分（这个过程可称为“过滤”）。

具体步骤，如下图所示：

有关正则表达式的一些语法规则，可以参考下表：

剩余38页未读，继续阅读

内容反馈

郑瑜伊

粉丝: 19
资源: 317

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

《网络数据采集》第4章课件201911221

评论0

最新资源

《网络数据采集》第4章课件201911221

评论0

《网络数据采集》第1章课件201911221

《网络数据采集》第3章课件201911221

《网络数据采集》第2章课件201911221

清华大学精品大数据全套课程PPT课件含习题（34页）第2章 数据采集与预处理.pdf

数据采集系统设计课件

清华大学精品大数据全套课程PPT课件含习题（36页）第4章 大数据挖掘工具.pdf

计算机控制原理与技术课件：第4章 过程通道和数据采集系统.ppt

清华大学精品大数据课件之数据标注课程PPT课件含习题 全套PPT课件集合 共7个章节.rar

清华大学精品大数据全套课程PPT课件含习题（40页）第8章 互联网大数据处理.pdf

清华大学精品大数据全套课程PPT课件含习题（31页）第3章 数据挖掘算法（上）.pdf

清华大学精品大数据全套课程PPT课件含习题（54页）第10章 行业大数据.pdf

清华大学精品大数据全套课程PPT课件含习题（33页）第7章 大数据可视化.pdf

大数据导论课件，第一章什么是大数据

大数据必修课 数据标注工程课程 数据标注自学教程资料含练习题 第3章 数据标注分类 共15页.pptx

LabVIEW宝典课件.ppt

清华大学精品大数据全套课程PPT课件含习题（36页）第5章 R语言.pdf

剖析大数据核心技术和实战应用 清华大数据课程课件含习题 第1章 大数据概念与应用（32页）.pdf

剖析大数据核心技术和实战应用 清华大数据课程课件含习题 第9章 大数据商业应用（47页）.pdf

剖析大数据核心技术和实战应用 清华大学大数据课程全套PPT课件含习题 第6章 深度学习（53页）.pdf

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

最新资源

清华大学精品大数据全套课程PPT课件含习题（34页）第2章数据采集与预处理.pdf

清华大学精品大数据全套课程PPT课件含习题（36页）第4章大数据挖掘工具.pdf

计算机控制原理与技术课件：第4章过程通道和数据采集系统.ppt

清华大学精品大数据课件之数据标注课程PPT课件含习题全套PPT课件集合共7个章节.rar

清华大学精品大数据全套课程PPT课件含习题（40页）第8章互联网大数据处理.pdf

清华大学精品大数据全套课程PPT课件含习题（31页）第3章数据挖掘算法（上）.pdf

清华大学精品大数据全套课程PPT课件含习题（54页）第10章行业大数据.pdf

清华大学精品大数据全套课程PPT课件含习题（33页）第7章大数据可视化.pdf

大数据必修课数据标注工程课程数据标注自学教程资料含练习题第3章数据标注分类共15页.pptx

剖析大数据核心技术和实战应用清华大数据课程课件含习题第1章大数据概念与应用（32页）.pdf

剖析大数据核心技术和实战应用清华大数据课程课件含习题第9章大数据商业应用（47页）.pdf

剖析大数据核心技术和实战应用清华大学大数据课程全套PPT课件含习题第6章深度学习（53页）.pdf