没有合适的资源?快使用搜索试试~ 我知道了~
百度-分布式应用解决方案——linkbase.docx
4星 · 超过85%的资源 需积分: 9 27 下载量 65 浏览量
2011-09-08
10:13:34
上传
评论
收藏 72KB DOCX 举报
温馨提示
试读
11页
网页链接库(简称linkbase)是百度搜索引擎中重要的一部分,它存储的链接数量、更新速度等直接影响到从整个互联网抓取网页的效率和质量,从而影响搜索结果。 • Link库存储spider所需要的链接数据 • Select将待抓取的链接从link库中选出,发送给抓取系统CS到互 联网上抓取网页 • Saver将收到的新链接合并到link库中 • EC将CS抓取的网页进行分析,交给DC分发给不同的存储系统,DC将网页数据发送到webinfoDB存储,将链接数据发送给saver处理
资源推荐
资源详情
资源评论
分布式应用解决方案——linkbase
一、分布式 linkbase 背景
1、背景介绍
网页链接库(简称 linkbase)是百度搜索引擎中重要的一部分,它存储的链接
数量、更新速度等直接影响到从整个互联网抓取网页的效率和质量,从而影响
搜索结果。
下面的示意图说明了 linkbase 在网页抓取和处理中的位置以及和其他模块、系
统的关系。
Link 库存储 spider 所需要的链接数据
Select 将待抓取的链接从 link 库中选出,发送给抓取系统 CS 到互联网
上抓取网页
Saver 将收到的新链接合并到 link 库中
EC 将 CS 抓取的网页进行分析,交给 DC 分发给不同的存储系统,DC
将网页数据发送到 webinfoDB 存储,将链接数据发送给 saver 处理
2、分布式网页链接库三个阶段的发展
百度的分布式网页链接库近几年经历了三个阶段的发展:
第一阶段:基于主域分环的静态分布式 linkbase。
整个 linkbase 按照链接的主域进行划分到 144 台机器,每个主域的所有链接
仅在一台机器存储和处理。主要问题是随着链接数大规模增长,存在严重的机
器负载不均情况。
第二阶段:基于分布式基础架构的分布式 linkbase。
采用分布式文件系统 HDFS 存储 linkbase 链接数据,分布式计算模型
MapReduce 进行 linkbase 的更新和挖掘。主要问题是 linkbase 存储为多个
HDFS 文件,这些文件大小差别很大(如 10 倍)时造成处理起来时间被最大的
文件拖长。
第三阶段:基于分布式基础架构的自动均衡分布式 linkbase。
采用增加索引的存储方式和自动均衡输入数据的处理方式,解决文件大小不均
的问题。
二、基于主域分环的分布式 linkbase
1、背景
基于单机架构的分布式 linkbase 将整个 linkbase 按照链接的主域进行划分,
每个主域的链接仅被一台机器存储和处理,一台机器可以处理多个主域的链接。
例如 baidu.com 的所有链接由 A 机器处理,sina.com.cn 的所有链接由 B 机
器处理,某几个小站点的链接由 X 机器处理。
2、存在的问题
这种架构缓解了用一台机器存储和处理所有 linkbase 数据的压力,在链接大量
增长的情况下,存在下面几个严重的问题:
(1)扩展性问题:
机器数量是固定的 144 台,增加机器相当困难,无法应对互联网数据不断增长
的需求。
(2)负载均衡问题:
部分主域(如 baidu, sina, qq)的链接明显比其他主域多,而一个主域的链接
是不能分到多台机器的,所以链接最多的主域对应的机器就成为短板,它的硬
盘和 CPU 压力都比其他机器大, 一方面这个主域的链接处理会比其他机器慢,
另一方面这个主域的机器出现故障的可能行和影响也比其他机器要大。
剩余10页未读,继续阅读
资源评论
- woaiwerer2011-09-09写得不错,正好想去百度,希望面试的时候能加分,呵呵,多谢楼主分享!
lsletter
- 粉丝: 8
- 资源: 46
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功