每个网页页面返回到客户端的都是 html,你需要的内容就在这 html 里面,这个 html 你
可以用一个字符串去保存到 java 变量里,你要做的工作就是截取字符串相应位置的内容并
保存起来,你给的这个网站每个商品的网页有个特殊的地方
聚集爬虫: 聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问
万维网上的网页与相关的链接,获取所需要的信息。聚焦爬虫并不追求大的覆盖,而将目标
定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。控制器的主要
工作是负责 给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页,进
行页面的处理,主要是将一些 JS 脚本标签、CSS 代码内容、空格字符、HTML 标 签等内
容处理掉,爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源,一般都
采用大型的数据库存储,如 Oracle数据库 ,并对其建立索引。
控制器是网络爬虫的中央控制器,它主要是负责根据系统传过来的 URL 链接,分配一
解析器是负责网络爬虫的主要部分,其负责的工作主要有:下载网页的功能,对网页的
文本进行处理,如过滤功能,抽取特殊 HTML 标签的功能,分析数据功能。
主要是用来存储网页中下载下来的数据记录的容器,并提供生成索引的目标源。中大型
的数据库产品有:Oracle、Sql Server 等。
web 爬虫主要功能是从 web 中发现,下载以及存储内容。广泛应用于各种搜索引擎中。
文档下载模块,主要用于从 web 中下载内容。
文档解析模块,用于解析下载文档中的内容,如解析 HTML,PDF,Word 等等。这个
模块还要提取网页中的 URL 和一些对于索引有用的数据。
存储文档的元数据以及内容的库。
规范化 URL 模块,把 URL 转成标准的格式。
评论0
最新资源