爬虫技术精髓.docx资源-CSDN文库

版权申诉

100 浏览量 2022-11-23 16:47:01 上传评论收藏 103KB DOCX 举报

资源详情

资源评论

爬虫技术精髓

每个网页页面返回到客户端的都是 html，你需要的内容就在这 html 里面，这个 html 你

可以用一个字符串去保存到 java 变量里，你要做的工作就是截取字符串相应位置的内容并

保存起来，你给的这个网站每个商品的网页有个特殊的地方

聚集爬虫：聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问

万维网上的网页与相关的链接，获取所需要的信息。聚焦爬虫并不追求大的覆盖，而将目标

定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。

在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制器的主要

工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页，进

行页面的处理，主要是将一些 JS 脚本标签、CSS 代码内容、空格字符、HTML 标签等内

容处理掉，爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源，一般都

采用大型的数据库存储，如 Oracle数据库，并对其建立索引。

控制器是网络爬虫的中央控制器，它主要是负责根据系统传过来的 URL 链接，分配一

解析器是负责网络爬虫的主要部分，其负责的工作主要有：下载网页的功能，对网页的

文本进行处理，如过滤功能，抽取特殊 HTML 标签的功能，分析数据功能。

主要是用来存储网页中下载下来的数据记录的容器，并提供生成索引的目标源。中大型

的数据库产品有：Oracle、Sql Server 等。

研究爬虫技术的网站：

目前只发现

是专注于研究爬虫技术网站。

概览 web 爬虫

web 爬虫主要功能是从 web 中发现，下载以及存储内容。广泛应用于各种搜索引擎中。

一个典型的 web 爬虫主要由以下的部分组成：

文档下载模块，主要用于从 web 中下载内容。

文档解析模块，用于解析下载文档中的内容，如解析 HTML,PDF,Word 等等。这个

模块还要提取网页中的 URL 和一些对于索引有用的数据。

存储文档的元数据以及内容的库。





规范化 URL 模块，把 URL 转成标准的格式。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

内容反馈

版权申诉

评论0

最新资源

xxpr_ybgg

粉丝: 6506
资源: 3万+

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip