1993 年,只有 1.5%的 Web 服务是来自.com 域名。到 1997 年,超过了 60%。同时,搜索引擎从
学术领域走进商业。到现在大多数搜索引擎被公司 所有,很少技公开术细节。这就导致搜索引擎技术很
大程度上仍然是暗箱操作,并倾向做广告(见附录 A)。Google 的主要目标是推动学术领域在此方面的发
展,和对它的了解。另一个设计目标是给大家一个实用的系统。应用对我们来说非常重要,因为现代网络
系统中存在大量的有用数据(us because we think some of the most interesting research will
involve leveraging the vast amount of usage data that is available from modern web
systems)。例如,每天有几千万个研究。然而,得到这些数据却非常困难,主要因为它们没有商业价值。
我们最后的设计目标是建立一个体系结构能够支持 新的关于海量 Web 数据的研究。为了支持新研究,
Google 以压缩的形式保存了实际所抓到的文档。设计 google 的目标之一就是要建立一个环境使其他 研
究者能够很快进入这个领域,处理海量 Web 数据,得到满意的结果,而通过其它方法却很难得到结果。
系统在短时间内被建立起来,已经有几篇论文用到了 Google 建的数据库,更多的在起步中。我们的另一
个目标是建立一个宇宙空间实验室似的环境,在这里研究者甚至学生都可以对我们的海量 Web 数据设计
或 做一些实验。
2. 系统特点
Google 搜索引擎有两个重要特点,有助于得到高精度的搜索结果。
第一点,应用 Web 的链接结构计算每个网页的 Rank 值,称为 PageRank,将在 98 页详细描述它。
第二点,Google 利用超链接改进搜索结果。
2.1 PageRank:给网页排序 Web 的引用(链接)图是重要的资源,却被当今的搜索引擎很大程度上忽
视了。我们建立了一个包含 518‘000'000 个超链接的图,它是一个具有重要意 义的样本。这些图能够快
速地计算网页的 PageRank 值,它是一个客观的标准,较好的符合人们心目中对一个网页重要程度的评
价,建立的基础是通过引用判 断重要性。因此在 web 中,PageRank 能够优化关键词查询的结果。对于
大多数的主题,在网页标题查询中用 PageRank 优化简单文本匹配,我们得 到了令人惊叹的结果(从
google.stanford.edu 可以得到演示)。对于 Google 主系统中的全文搜索,PageRank 也帮了不少忙。
2.1.1 计算 PageRank 文献检索中的引用理论用到 Web 中,引用网页的链接数,一定程度上反映了
该网页的重要性和质量。PageRank 发展了这种思想,网页间的链接是不平等 的。 PageRank 定义如下:
我们假设 T1…Tn 指向网页 A(例如,被引用)。参数 d 是制动因子,使结果在 0,1 之间。通常 d 等于
0.85。在下一节将详细 介绍 d。C(A)定义为网页 A 指向其它网页的链接数,网页 A 的 PageRank 值由下
式给出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意 PageRank 的形式,分布到
各个网页中,因此所有网页的 PageRank 和是 1。 PageRank 或 PR(A)可以用简单的迭代算法计算,相
应规格化 Web 链接矩阵的主特征向量。中等规模的网站计算 26‘000'000 网页的 PageRank 值要花费
几小时。还有一些技术细节超出了本文论述的范围。
2.1.2 直觉判断 PageRank 被看作用户行为的模型。我们假设网上冲浪是随机的,不断点击链接,
从不返回,最终烦了,另外随机选一个网页重新开始冲浪。随机访问一个网 页的可能性就是它的
PageRank 值。制动因子 d 是随机访问一个网页烦了的可能性,随机另选一个网页。对单个网页或一组
网页,一个重要的变量加入到制动 因子 d 中。这允许个人可以故意地误导系统,以得到较高的
PageRank 值。我们还有其它的 PageRank 算法,见 98 页。 另外的直觉判断是一个网页有很多网页指
向它,或者一些 PageRank 值高的网页指向它,则这个网页很重要。直觉地,在 Web 中,一个网页被很