没有合适的资源?快使用搜索试试~ 我知道了~
pageRank-详细解析(具体例子).docx
需积分: 33 27 下载量 82 浏览量
2020-06-27
17:10:07
上传
评论
收藏 282KB DOCX 举报
温馨提示
试读
13页
详细介绍了PageRank算法 PageRank算法优缺点 优点: 是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。 缺点: 1)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低 2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。
资源推荐
资源详情
资源评论
PageRank 解释方法一
1. PageRank 的核心思想
(1)
R(x)表示 x 的 PageRank,B(x)表示所有指向 x 的网页。
公式(1)的意思是一个网页的重要性等于指向它的所有网页的重要性相加之和。粗看之下,
公式(1)将核心思想准确地表达出来了。但仔细观察就会发现,公式(1)有一个缺陷:无论 J 有多
少个超链接,只要 J 指向 I,I 都将得到与 J 一样的重要性。当 J 有多个超链接时,这个思想就会
造成不合理的情况。例如:一个新开的网站 N 只有两个指向它的超链接,一个来自著名并且历
史悠久的门户网站 F,另一个来自不为人知的网站 U。根据公式(1),就会得到 N 比 F 更优质的
结论。这个结论显然不符合人们的常识。
弥补这个缺陷的一个简单方法是当 J 有多个超链接(假设个数为 N),每个链接得到的重要性
为 R(j)/N。于是公式(1)就变成公式(2):
(2) N(j)表示 j 页面的超链接数
图 2 来自 Lawrence Page 的文章
从图 2 可以看出,如果要得到 N 比 F 更优质的结论,就要求 N 得到很多重要网站的超链接
或者海量不知名网站的超链接。而这是可接受的。因此可以认为公式(2)将核心思想准确地表达
出来了。为了得到标准化的计算结果,在公式(2)的基础上增加一个常数 C,得到公式(3):
(3)
2. 计算,实例
由公式(3)可知,PageRank 是递归定义的。换句话就是要得到一个页面的 PageRank,就要
先知道另一些页面的 PageRank。因此需要设置合理的 PageRank 初始值。不过,如果有办
法得到合理的 PageRank 初始值,还需要这个算法吗?或者说,这个严重依赖于初始值的算法
有什么意义吗?
依赖于合理初始值的 PageRank 算法是没意义的,那么不依赖于初始值的 PageRank 算法就
是有意义的了。也就是说,如果存在一种计算方法,使得无论怎样设置初始值,最后都会收敛
到同一个值就行了。要做到这样,就要换一个角度看问题,从线性代数的角度看问题。
将页面看作节点,超链接看作有向边,整个互联网就变成一个有向图了。此时,用邻接矩阵 M
表示整个互联网,若第 I 个页面有存在到第 J 个页面的超链接,那么矩阵元素 m[i][j]=1,否则
m[i][j]=0。对于图 3 有
矩形 M={ 0, 1, 1, 0,
0, 0, 0, 1,
1, 0, 0, 0,
1, 1, 1, 0}
图 3
观察矩阵 M 可发现,M 的第 I 行表示第 I 个网页指向的网页,M 的第 J 列表示指向 J 的网页。如
果将 M 的每个元素都除于所在行的全部元素之和,然后再将 M 转置(交换行和列),得到
M
T
。M
T
的每一行的全部元素之和不就正好是公式(3)中的 吗?例如图 3 可以得到这样的矩阵:
M
T
={ 0, 0, 1, 1/3,
1/2, 0, 0, 1/3,
1/2, 0, 0, 1/3,
0, 1, 0, 0 }
将 R 看作是一个 N 行 1 列的矩阵,公式(3)变为公式(4)
R = C M
T
R (4)
在公式(4)中,R 可以看作 M
T
的特征向量,其对应的特征值为 1 / C(看不明白这句话,可以回
忆下线性代数中对特征向量的定义——对于矩阵 A,若存在着列向量 X 和一个数 c,使得
AX=cX,则 X 称为 A 的特征向量,c 称为 A 的特征值)。幂法(power method)计算主特征
向量与初始值无关,因此只要把 R 看作主特征向量计算,就可以解决初始值的合理设置问题。
幂法得到的结果与初始值无关,是因为最终都会收敛到某个值。因此使用幂法之前,要确保能
够收敛。但是,在互联网的超链接结构中,一旦出现封闭的情况,就会使得幂法不能收敛。所
谓的封闭是指若干个网页互相指向对方,但不指向别的网页,具体的例子如图 4 所示:
剩余12页未读,继续阅读
资源评论
joey小天使
- 粉丝: 238
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功