爬虫技术精髓.pdf资源-CSDN文库

版权申诉

178 浏览量 2022-11-23 16:47:01 上传评论收藏 193KB PDF 举报

资源推荐

资源详情

资源评论

爬虫技术精髓

爬虫原理：

每个网页页面返回到客户端的都是 html，你需要的内容就在这 html 里面，这个 html 你

可以用一个字符串去保存到 java 变量里，你要做的工作就是截取字符串相应位置的内容并

保存起来，你给的这个网站每个商品的网页有个特殊的地方

爬虫分为两类：

聚集爬虫：聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问

万维网上的网页与相关的链接，获取所需要的信息。聚焦爬虫并不追求大的覆盖，而将目标

定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。

通用爬虫：

网络爬虫的组成

在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制器的主要

工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页，进

行页面的处理，主要是将一些 JS 脚本标签、CSS 代码内容、空格字符、HTML 标签等内

容处理掉，爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源，一般都

采用大型的数据库存储，如 Oracle 数据库，并对其建立索引。

控制器:

控制器是网络爬虫的中央控制器，它主要是负责根据系统传过来的 URL 链接，分配一

线程，然后启动线程调用爬虫爬取网页的过程。

解析器:

解析器是负责网络爬虫的主要部分，其负责的工作主要有：下载网页的功能，对网页的

文本进行处理，如过滤功能，抽取特殊 HTML 标签的功能，分析数据功能。

资源库:

主要是用来存储网页中下载下来的数据记录的容器，并提供生成索引的目标源。中大型

的数据库产品有：Oracle、Sql Server 等。

研究爬虫技术的网站：

目前只发现是专注于研究爬虫技术网站。

概览 web 爬虫

web 爬虫主要功能是从 web 中发现，下载以及存储内容。广泛应用于各种搜索引擎中。

一个典型的 web 爬虫主要由以下的部分组成：











能被爬虫识别的 URL 库。

文档下载模块，主要用于从 web 中下载内容。

文档解析模块，用于解析下载文档中的内容，如解析 HTML,PDF,Word 等等。这个

模块还要提取网页中的 URL 和一些对于索引有用的数据。

存储文档的元数据以及内容的库。

规范化 URL 模块，把 URL 转成标准的格式。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

内容反馈

版权申诉

xxpr_ybgg

粉丝: 6506
资源: 3万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip