没有合适的资源?快使用搜索试试~ 我知道了~
爬虫技术精髓.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 178 浏览量
2022-11-23
16:47:01
上传
评论
收藏 193KB PDF 举报
温馨提示
试读
3页
...
资源推荐
资源详情
资源评论
爬虫技术精髓
爬虫原理:
每个网页页面返回到客户端的都是 html,你需要的内容就在这 html 里面,这个 html 你
可以用一个字符串去保存到 java 变量里,你要做的工作就是截取字符串相应位置的内容并
保存起来,你给的这个网站每个商品的网页有个特殊的地方
爬虫分为两类:
聚集爬虫: 聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问
万维网上的网页与相关的链接,获取所需要的信息。聚焦爬虫并不追求大的覆盖,而将目标
定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
通用爬虫:
网络爬虫的组成
在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。控制器的主要
工作是负责 给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页,进
行页面的处理,主要是将一些 JS 脚本标签、CSS 代码内容、空格字符、HTML 标 签等内
容处理掉,爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源,一般都
采用大型的数据库存储,如 Oracle 数据库 ,并对其建立索引。
控制器:
控制器是网络爬虫的中央控制器,它主要是负责根据系统传过来的 URL 链接,分配一
线程,然后启动线程调用爬虫爬取网页的过程。
解析器:
解析器是负责网络爬虫的主要部分,其负责的工作主要有:下载网页的功能,对网页的
文本进行处理,如过滤功能,抽取特殊 HTML 标签的功能,分析数据功能。
资源库:
主要是用来存储网页中下载下来的数据记录的容器,并提供生成索引的目标源。中大型
的数据库产品有:Oracle、Sql Server 等。
研究爬虫技术的网站:
目前只发现 是专注于研究爬虫技术网站。
概览 web 爬虫
web 爬虫主要功能是从 web 中发现,下载以及存储内容。广泛应用于各种搜索引擎中。
一个典型的 web 爬虫主要由以下的部分组成:
能被爬虫识别的 URL 库。
文档下载模块,主要用于从 web 中下载内容。
文档解析模块,用于解析下载文档中的内容,如解析 HTML,PDF,Word 等等。这个
模块还要提取网页中的 URL 和一些对于索引有用的数据。
存储文档的元数据以及内容的库。
规范化 URL 模块,把 URL 转成标准的格式。
资源评论
xxpr_ybgg
- 粉丝: 6506
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功