中文搜索引擎技术揭密:排序技术
作者 Winter
随着“眼球经济”席卷互联 网,成千上万的资金迅速流向最能吸引浏览着眼球的搜索引擎市场。有大量调查
显示搜索引擎市场正处在高速发展时期,成为了未来几年内最具发展潜力的产业之 一。随着 Google、百
度、中国搜索等各具特色的搜索引擎逐渐成为人们最常用的网络工具,企业对搜索引擎的注意力也从“观察”
升级为“动武”。
随着市场容量和使用者人数的不断激增,如何完善搜索功能使之更加公平、公开、标准和人性化也就随之成
为了一个备受关注的话题。但是有一个矛盾体在这其中不 断的显现出来:收费可以为搜索引擎公司带来利
润,但同时会降低访问者的体验满意度。如何权衡金钱和用户需求之间的天平呢?
Google 成功的秘密
到 2004 年为止,Google(http://www.google.com) 已经连续两年被评为全球第一品牌,Google 成立
仅五年时间,最初只是两个斯坦福大学学生的研究项目。这不能不说是一个奇迹,就像比尔?盖茨创制奇迹
一 样。比尔?盖茨能创造奇迹,是因为他看准了个人计算机软件市场的趋势,所以创建的公司叫
Microsoft(微软):Micro(小)Soft(软件)。 那么 Google 呢?在 Google 出来之前已经有一些很有成
就的搜索引擎公司,其实力也很强,看来不只是 Google 看见了搜索的趋势。Google 究 竟成功的秘密在哪
儿?
Google 的成功有许多因素,最重要的是 Google 对搜索结果的排序比其它搜索引擎都要好。Google 保证让
绝大部分用搜索的人,都能在搜索结果的 第一页找到他想要的结果。客户得到了满足,下一次还过来,而且
会向其他人介绍,这一来一往,使用的人就多了。所以 Google 在没有做任何广告的前提下, 让自己成为了
全球最大的品牌。Google 究竟采用了哪种排序技术?PageRank,即网页级别。
Google 有一个创始人叫 Larry Page,据说 PageRank 的专利是他申请的,于是依据他的名字就有了 Page
Rank。国内也有一家很成功的搜索引擎公司,叫百度(http://www.baidu.com)。 百度的创始人李彦宏
说,早在 1996 年他就申请了名为超链分析的专利,PageRank 的原理和超链分析的原理是一样的,而且
PageRank 目前还在 Paten-pending(专利申请中)。言下之意是这里面存在专利所有权的问题。这里不
讨论专利所有权,只是从中可看出,成功搜索引擎的排序技术,就 其原理上来说都差不多,那就是链接分
析。超链分析和 PageRank 都属于链接分析。
链接分析到底为何物?由于李彦宏的超链分析没有具体的介绍,笔者唯一看过的就是在美国专利局网站上关
于李彦宏的专利介绍。PageRank 的介绍倒是不少,而且目前 Google 毕竟是全球最大的搜索引擎,这里以
PageRank 为代表,详细介绍链接分析的原理。
PageRank 揭密