将n维Pagerank多次迭代,得到最后收敛的pagerank向量。
网络拓扑分析(fēnxī)
a = d * u * Lt * L * a
HITS: 分析网页(wǎnɡ yè)的导航度和权威度,由此来判断网页(wǎnɡ yè)的作用。
单击此处添加(tiān jiā)段落文字内容
为了克服这种问题,需要对PageRank计算方法进行一个平滑处理,具体做法是加入“跳转因子(teleporting)”。
由于L*Lt的求解(qiú jiě)不太方便,所以,用交迭的方式来计算h和a更好,每次计算都需要进行归一化。
单击此处添加(tiān jiā)段落文字内容
但是随着Web规模越来越大,这种方法非常困难,因为图的特定结构查找是时间复杂度非常高的一个算法,不可能完全靠这种方法反作弊。
某些网页提供某个主题的信息(xìnxī),而且具有非常重要的信息(xìnxī),这些网页被称为权威页
根据各数据块之间的相关性,计算缩略图p的Blockrank。
迭代拿掉图中的终止点及终止点相关的边(之所以迭代拿掉是因为当目前的终止点被拿掉后,可能会出现一批新的终止点),直到图中没有终止
点。
能否考虑先算出局部的Pagerank值??
“导航页和权威页”的计算方式类似于pagerank,通过矩阵-向量的方式迭代,直到一个收敛的点。
1.早期(zǎoqī)搜索引擎的弊端
早期很多搜索引擎根本不
评价结果重要性,而是直
接按照某自然顺序(例如
时间顺序或编号
(biān hào)
顺序)返回结果。一旦结
果集变大,简直就是一场
灾难,这也注定这种方法
不可能用于现代的通用搜
索引擎
基于检索词评价的思想
非常朴素:检索关键词
出现次数越多的页面匹
配度越高,而匹配度越
高的页面重要性越高
作弊者可在他网页上增加一
个词项,并将该词项重复千
百次,搜索引擎可能以为该
网页与检索关键词高度相关
而把该网页放在搜索结果的
前列
第三页,共34页。