链路挖掘—PageRank
PageRank 是 Google 排名运算法则(排名公式)的一部分,是 Google 用于用来标识网
页的等级/重要性的一种方法,是 Google 用来衡量一个网站的好坏的唯一标准。在揉合了
诸如 Title 标识和 Keywords 标识等所有其它因素之后,Google 通过 PageRank 来调整
结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索
结果的相关性和质量。
原理:
常言道,看一个人怎样,看他有什么朋友就知道了。也就是说,一个人有着越多出名朋友
的人,他是出名的概率就越大。将这个知识迁移到网页上就是“被越多优质的网页所指的网
页,它是优质的概率就越大”。
PageRank 的核心思想就是上述简单却有效的观点。由这个思想,可以得到一个直观的公
式:
(1)
R(x)表示 x 的 PageRank,B(x)表示所有指向 x 的网页。
公式(1)的意思是一个网页的重要性等于指向它的所有网页的重要性相加之和。粗看之
下,公式(1)将核心思想准确地表达出来了。但仔细观察就会发现,公式(1)有一个缺陷:
无论 J 有多少个超链接,只要 J 指向 I,I 都将得到与 J 一样的重要性。当 J 有多个超链接时,
这个思想就会造成不合理的情况。例如:一个新开的网站 N 只有两个指向它的超链接,一
个来自著名并且历史悠久的门户网站 F,另一个来自不为人知的网站 U。根据公式(1),就
会得到 N 比 F 更优质的结论。这个结论显然不符合人们的常识。
弥补这个缺陷的一个简单方法是当 J 有多个超链接(假设个数为 N),每个链接得到的重
要性为 R(j)/N。于是公式(1)就变成:
(2)
N(j)表示 j 页面的超链接数
- 1
- 2
前往页