百度-分布式应用解决方案——linkbase.docx

4星 · 超过85%的资源需积分: 9 27 下载量 65 浏览量 2011-09-08 10:13:34 上传评论收藏 72KB DOCX 举报

温馨提示

试读

11页

网页链接库（简称linkbase）是百度搜索引擎中重要的一部分，它存储的链接数量、更新速度等直接影响到从整个互联网抓取网页的效率和质量，从而影响搜索结果。 • Link库存储spider所需要的链接数据 • Select将待抓取的链接从link库中选出，发送给抓取系统CS到互联网上抓取网页 • Saver将收到的新链接合并到link库中 • EC将CS抓取的网页进行分析，交给DC分发给不同的存储系统，DC将网页数据发送到webinfoDB存储，将链接数据发送给saver处理

资源推荐

资源详情

资源评论