没有合适的资源?快使用搜索试试~ 我知道了~
海量Web信息搜集系统优化设计_谢正茂_北京大学硕士论文
5星 · 超过95%的资源 需积分: 0 26 下载量 8 浏览量
2009-07-08
15:05:09
上传
评论 1
收藏 223KB DOC 举报
温馨提示
试读
21页
论 文 摘 要 本文首先由WWW的起源和发展导出搜索引擎技术的出现和发展。北大天网是这类技术在中国的最早的成功产品之一,本文将大体介绍其体系结构和技术特点。 搜集端(crawler)是天网的主要模块之一,它的搜索速度、获取网页质量是评价搜索引擎好坏的主要指标,是检索端的工作的基石。如何更快,更好的抓取网页是本人毕业设计的工作目标。在介绍完搜集端现有的体系结构之后,本文从搜索导向、相似网页、相关度权值给定三个方面阐述它的优化策略,作为本文的重点。 最后,本文试图指出现有系统的处理能力极限和瓶颈,并在此基础上作新的体系结构的探讨。
资源推荐
资源详情
资源评论
海量 Web 信息搜集系统
优化设计
1
论 文 摘 要
本文首先由 WWW 的起源和发展导出搜索引擎技术的出现和发展。北大天
网是这类技术在中国的最早的成功产品之一,本文将大体介绍其体系结构和技
术特点。
搜集端(crawler)是天网的主要模块之一,它的搜索速度、获取网页质量
是评价搜索引擎好坏的主要指标,是检索端的工作的基石。如何更快,更好的
抓取网页是本人毕业设计的工作目标。在介绍完搜集端现有的体系结构之后,
本文从搜索导向、相似网页、相关度权值给定三个方面阐述它的优化策略,作
为本文的重点。
最后,本文试图指出现有系统的处理能力极限和瓶颈,并在此基础上作新
的体系结构的探讨。
关键词:
搜索导向 ,replicas-nding, crawler , URL ordering
2
第一章 背景介绍
§1.1 WWW 的起源和发展
WWW ( World Wide Web ) 起 源 于 1989 年 欧 洲 粒 子 物 理 研 究 室
(CERN)。WWW 的最初计划是由 CERN 的物理学家 Tim Berners-Lee 于 1989 年
3 月提出的,第一个原型(基于文本)于 18 个月后运行。
WWW 的核心技术是超文本和超媒体。通过将文本、图形、图象、音频、视
频等信息的有机结合,给人们提供了丰富的信息表示空间。在十多年的时间里,
WWW 的信息容量巨增,根据 NEC 研究院在《自然》上发布的数据[3],截止到
1999 年 2 月,Internet 上共有网站 16.0M 个,其中公开提供 WWW 服务的网站
280 万个;共有 WWW 网页大约 8 亿页,这些网页包含了 15T 字节的数据。按
照 2000 年 4 月在波士顿举行的第 5 届搜索引擎年会的会议报告[4],我们可以知
道现今的网页数目已经超过了 10 亿页。
WWW 在 1994 年登陆中国,在到现在仅仅 6 年的时间里发展速度惊人。根
据 CNNIC(中国互联网络信息中心)在 2000 年 1 月的统计信息表明[5],中国已有
上网计算机 350 万台,其中 WWW 站点 15153 个;上网人数 890 万。关于网页
的数目没有具体的统计数据,但根据《科学》杂志上提供的集合估计法[2],通
过中国几个主要搜索引擎获得的搜索数据(天网、新浪、搜狐、网易),我们
可以估计到当前中国拥有的网页数已经超过 1000 万页。
§1.2 搜索引擎的出现和发展
面对浩瀚的 WWW 信息资源,用户在感到进入信息社会的兴奋之后,立刻
觉得不知所措,太多的信息使我们很难迅速定位我们真正需要的信息,而跟随
超链在 WWW 上漫游则会浪费大量的时间,而且很可能徒劳无功。因此,人们
迫切需要有效的信息发现工具来为他们在 WWW 上进行导航。
在 1994 年, 第 一代 搜 索引 擎 出现了 , 例如 Lycos, Infoseek, AltaVista 和
Exite。这时,它们还处在研究阶段,数据量少,检索速度慢是它们的突出缺点。
最近这几年里,搜索引擎技术有突飞猛进的发展,出现了 AltaVista,Inktomi
,Google ,Inktomi 的 Directory Engine ,Inktomi , FAST, Northern Light 等成熟
的搜索引擎产品,它们日趋变的好用,成为 WWW 用户必不可少的工具之一。
“北大天网(Webgather)” 是 CERNET 在“九五”攻关项目“计算机信息网络及其
3
应用关键技术研究”中设立了“中文编码和分布式中英文信息发现”子专题,北京
大学网络研究室承担了该子专题的部分研究开发工作,设计开发了“天网”中英
文搜索引擎(WebGather ) [3] 。 1997 年 10 月 29 日 ,天 网 搜 索引 擎 正式 在
CERNET 上提供查询服务。《软件世界》(1998 年 7 月)将天网评为国内最值
得关注的搜索引擎,1998 年 12 月,天网通过了 CERNET 的鉴定。之后,天网
又进行了大量的技术创新和系统的完善。到目前为止,天网总访问量已经突破
5,000,000,并且仍以每天大于 30,000 的访问量递增。
第二章 系统概述
§2.1 “天网”体系结构简介
“
天
4
internet
搜集端
搜集
数据库
数据库
分析器
检索端
检索数据库
图 2.1 搜索引擎总框架
图 2.2 搜集端结构
网搜索引擎”由两个主要部分组成,分别是搜索端和检索端[refer]。搜索端从
WWW 上抓取网页,经过分析提取出必要的信息存放到数据库中去(天网目前
使用的是 informix 数据库),当数据库完成一次更新后检索端便可依据数据库
中存放的信息对用户的检索请求做出答复了,也就是把用户想要的网页例出。
从检索的效率上考虑(数据库往往把功能作得很完善,我们宁可扔掉一部分于
我们无用的功能,来换取高速的读取),搜集端不是直接从 informix 数据库中
读取信息,而是从由数据库生成的中间文件中读取信息的。结构如图 2.1。
本文讨论的搜集端的各部分组件及其功能如图 2.2。
搜集端按如下方式工作,先由主控启动多个 gather 进程,并给它们逐一分配
一个网上的 URL,由它们负责去网上抓取网页。Gather 对取得的网页进行分析,
把结果送给主控,由主控对数据库进行操作,主控可以从 gather 送来的结果中
获得新的 URL,再分配给 gather。由于网络有时可能不能正常工作,gather 把
自己在某一时刻的工作状态纪录在共享内存里面,restart 进程负责巡视共享内
存,处理 gather 遇到的各种问题,改进程为什么被称作”restart”,是因为当它发
现有 gather 进程由于一些网络上的原因不能正常工作时(如分配的 URL 不存在,
我们称之为“死链”),由他结束该 gather 的本次任务,分配新的任务后重新开始。
为了协调网络速度和 CPU 处理能力的差异,在一台主机上启动多个 gather,并且
gather 数目可以调节。
§2.2 技术特点
搜索引擎最早只针对于对西文,西文(如英文,法文)又一个特点是,有
天然的分割语义的最小单位—词的分割符‘ ’(空格),而中文词与词之间没有
空格。在现代汉语中,大部分的词都是双字节、多字节词,其中单个字的意思
与整个词的意思相差甚远,尤其对大量涌入的音译外来词,如因特尔,迪士高,
麦当劳等,单个字与整个词的意思基本一点关系都没有。既然词是表达意思的
最小单位,“天网”通过一些切词程序,把词从网页中提取出来,网页信息以词
的形式被储存。在处理用户查询时,也从词的角度对用户输入作某种理解,再
去数据库中查找。这些词被称为关键词,要求能反映文章的内容。现代汉语词
类有名词、时间词、方位词、数词、量词,代词、动词、形容词、副词、介词、
连词、助词、拟声词,成语等等[ref]。这些词中,助词、连词、介词等词类是
不具有这种功能的,一大堆的“但是”、“虽然”、“的”、“呢”、“最”是不能让我们猜
出文章的任何内容的。这些词不能代表文章的内容,却在文章中以极高的词频
出现。我们把它们叫做“stop word”,在提取关键词时把这些词滤掉。
这一点是“天网”的基本特点,也是本文将要提到的基于关键词的“相似网页
发现算法”的基础。
5
剩余20页未读,继续阅读
资源评论
- yulelei2013-04-08研究一下 对自己的研究有帮助
rockychan1206
- 粉丝: 0
- 资源: 32
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功