我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文本结构,大大提高了查询质量。我们的系
统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎不谋而
合。
1.1网络搜索引擎—升级换代(scaling up):
1994-2000 搜索引擎技术不得不快速升级(scale dramatically)跟上成倍增长的web数量。1994年,第一个Web
搜索引擎,World Wide Web Worm(WWWW)可以检索到110,000个网页和Web的文件。到1994年11月,顶级
的搜索引擎声称可以检索到2‘000’000 (WebCrawler)至100‘000’000个网络文件(来自 Search Engine
Watch)。可以预见到2000年,可检索到的网页将超过1‘000’000‘000。同时,搜索引擎的访问量也会以惊人的速
度增长。在1997年的三四月份,World Wide Web Worm 平均每天收到1500个查询。
在1997年11月,Altavista 声称它每天要处理大约20’000’000个查询。随着网络用户的增长,到2000年,自动搜索
引擎每天将处理上亿个查询。我们系统的设计目标要解决许多问题,包括质量和可升级性,引入升级搜索引擎技
术(scaling search engine technology),把它升级到如此大量的数据上。
1.2 Google:
跟上 Web的步伐(Scaling with the Web)建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。抓网
页技术必须足够快,才能跟上网页变化的速度(keep them up to date)。存储索引和文档的空间必须足够大。索
引系统必须能够有效地处理上千亿的数据。处理查询必须快,达到每秒能处理成百上千个查询(hundreds to
thousands per second.)。随着Web的不断增长,这些任务变得越来越艰巨。然而硬件的执行效率和成本也在快
速增长,可以部分抵消这些困难。
还有几个值得注意的因素,如磁盘的寻道时间(disk seek time
),操作系统的效率(operating system
robustness)。在设计Google的过程中,我们既考虑了Web的增长速度,又考虑了技术的更新。Google的设计能
够很好的升级处理海量数据集。它能够有效地利用存储空间来存储索引。优化的数据结构能够快速有效地存取
(参考4.2节)。进一步,我们希望,相对于所抓取的文本文件和HTML网页的数量而言,存储和建立索引的代价
尽可能的小(参考附录B)。对于象Google这样的集中式系统,采取这些措施得到了令人满意的系统可升级性
(scaling properties)。
1. 3设计目标
1.3.1 提高搜索质量。我们的主要目标是提高Web搜索引擎的质量。
1994 年,有人认为建立全搜索索引(a complete search index)可以使查找任何数据都变得容易。根据Best of
the Web 1994 -- Navigators ,“最好的导航服务可以使在Web上搜索任何信息都很容易(当时所有的数据都可以
被登录)”。然而1997年的Web就迥然不同。近来搜索引擎的用户已经证实索引的完整性不是评价搜索质量的唯
一标准。用户感兴趣的搜索结果往往湮没在“垃圾结果Junk result”中。实际上,到1997年11月为止,四大商业搜
索引擎中只有一个能够找到它自己(搜索自己名字时返回的前十个结果中有它自己)。导致这一问题的主要原因
是文档的索引数目增加了好几个数量级,但是用户能够看的文档数却没有增加。用户仍然只希望看前面几十个搜
p2p(9)
QQ (1)
QQ &msn(18)
Ruby (0)
Ruby (0)
Silverlight(4)
vc (0)
windbg&调试(8)
Windows(131)
书籍与资料(0)
人工智能(6)
单片机(5)
原理 (59)
原理 (1)
反编译(2)
好的网站 (0)
好的网站 (9)
工具和软件(34)
并行计算(4)
我的blog(24)
手机开发(0)
手机开发(1)
批处理(3)
搜索引擎 (0)
搜索引擎 (24)
操作系统(83)
操作系统(2)
数据库(3)
暂时(0)
暂时(5)
杂类 (7)
杂类 (162)
杂谈(67)
浏览器(20)
浏览器(20)
社会&人生(3)
科学(19)
科学(4)
算法(27)
编译原理(20)
网络(51)
网页制作(121)
网页制作(2)
评论0
最新资源