【免费】海量Web信息搜集系统优化设计_谢正茂_北京大学硕士论文资源-CSDN文库

，replicas-finding,

5星 · 超过95%的资源需积分: 0 8 浏览量 2009-07-08 15:05:09 上传评论 1 收藏 223KB DOC 举报

资源推荐

资源详情

资源评论

海量 Web 信息搜集系统

优化设计

1

第一章背景介绍

§1.1 WWW 的起源和发展

WWW （ World Wide Web ）起源于 1989 年欧洲粒子物理研究室

(CERN)。WWW 的最初计划是由 CERN 的物理学家 Tim Berners-Lee 于 1989 年

3 月提出的，第一个原型（基于文本）于 18 个月后运行。

WWW 的核心技术是超文本和超媒体。通过将文本、图形、图象、音频、视

频等信息的有机结合，给人们提供了丰富的信息表示空间。在十多年的时间里，

WWW 的信息容量巨增，根据 NEC 研究院在《自然》上发布的数据[3]，截止到

1999 年 2 月，Internet 上共有网站 16.0M 个，其中公开提供 WWW 服务的网站

280 万个；共有 WWW 网页大约 8 亿页，这些网页包含了 15T 字节的数据。按

照 2000 年 4 月在波士顿举行的第 5 届搜索引擎年会的会议报告[4]，我们可以知

道现今的网页数目已经超过了 10 亿页。

WWW 在 1994 年登陆中国，在到现在仅仅 6 年的时间里发展速度惊人。根

据 CNNIC(中国互联网络信息中心)在 2000 年 1 月的统计信息表明[5]，中国已有

上网计算机 350 万台，其中 WWW 站点 15153 个；上网人数 890 万。关于网页

的数目没有具体的统计数据，但根据《科学》杂志上提供的集合估计法[2]，通

过中国几个主要搜索引擎获得的搜索数据（天网、新浪、搜狐、网易），我们

可以估计到当前中国拥有的网页数已经超过 1000 万页。

§1.2 搜索引擎的出现和发展

面对浩瀚的 WWW 信息资源，用户在感到进入信息社会的兴奋之后，立刻

觉得不知所措，太多的信息使我们很难迅速定位我们真正需要的信息，而跟随

超链在 WWW 上漫游则会浪费大量的时间，而且很可能徒劳无功。因此，人们

迫切需要有效的信息发现工具来为他们在 WWW 上进行导航。

在 1994 年，第一代搜索引擎出现了，例如 Lycos, Infoseek, AltaVista 和

Exite。这时，它们还处在研究阶段，数据量少，检索速度慢是它们的突出缺点。

最近这几年里，搜索引擎技术有突飞猛进的发展，出现了 AltaVista，Inktomi

，Google ，Inktomi 的 Directory Engine ，Inktomi , FAST, Northern Light 等成熟

的搜索引擎产品，它们日趋变的好用，成为 WWW 用户必不可少的工具之一。

“北大天网(Webgather)” 是 CERNET 在“九五”攻关项目“计算机信息网络及其

3

网搜索引擎”由两个主要部分组成,分别是搜索端和检索端[refer]。搜索端从

WWW 上抓取网页，经过分析提取出必要的信息存放到数据库中去（天网目前

使用的是 informix 数据库），当数据库完成一次更新后检索端便可依据数据库

中存放的信息对用户的检索请求做出答复了，也就是把用户想要的网页例出。

从检索的效率上考虑（数据库往往把功能作得很完善，我们宁可扔掉一部分于

我们无用的功能，来换取高速的读取），搜集端不是直接从 informix 数据库中

读取信息，而是从由数据库生成的中间文件中读取信息的。结构如图 2.1。

本文讨论的搜集端的各部分组件及其功能如图 2.2。

搜集端按如下方式工作，先由主控启动多个 gather 进程,并给它们逐一分配

一个网上的 URL,由它们负责去网上抓取网页。Gather 对取得的网页进行分析，

把结果送给主控，由主控对数据库进行操作，主控可以从 gather 送来的结果中

获得新的 URL，再分配给 gather。由于网络有时可能不能正常工作，gather 把

自己在某一时刻的工作状态纪录在共享内存里面，restart 进程负责巡视共享内

存，处理 gather 遇到的各种问题，改进程为什么被称作”restart”，是因为当它发

现有 gather 进程由于一些网络上的原因不能正常工作时（如分配的 URL 不存在，

我们称之为“死链”），由他结束该 gather 的本次任务，分配新的任务后重新开始。

为了协调网络速度和 CPU 处理能力的差异,在一台主机上启动多个 gather,并且

gather 数目可以调节。

§2.2 技术特点

搜索引擎最早只针对于对西文，西文（如英文，法文）又一个特点是，有

天然的分割语义的最小单位—词的分割符‘ ’（空格），而中文词与词之间没有

空格。在现代汉语中，大部分的词都是双字节、多字节词，其中单个字的意思

与整个词的意思相差甚远，尤其对大量涌入的音译外来词，如因特尔，迪士高，

麦当劳等，单个字与整个词的意思基本一点关系都没有。既然词是表达意思的

最小单位，“天网”通过一些切词程序，把词从网页中提取出来，网页信息以词

的形式被储存。在处理用户查询时，也从词的角度对用户输入作某种理解，再

去数据库中查找。这些词被称为关键词，要求能反映文章的内容。现代汉语词

类有名词、时间词、方位词、数词、量词，代词、动词、形容词、副词、介词、

连词、助词、拟声词，成语等等[ref]。这些词中，助词、连词、介词等词类是

不具有这种功能的，一大堆的“但是”、“虽然”、“的”、“呢”、“最”是不能让我们猜

出文章的任何内容的。这些词不能代表文章的内容，却在文章中以极高的词频

出现。我们把它们叫做“stop word”，在提取关键词时把这些词滤掉。

这一点是“天网”的基本特点，也是本文将要提到的基于关键词的“相似网页

发现算法”的基础。

5

剩余20页未读，继续阅读

内容反馈

yulelei

2013-04-08

研究一下对自己的研究有帮助

rockychan1206

粉丝: 0
资源: 32

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip