没有合适的资源?快使用搜索试试~ 我知道了~
PageRank 解释
4星 · 超过85%的资源 需积分: 10 14 下载量 40 浏览量
2011-01-06
11:34:03
上传
评论
收藏 399KB DOCX 举报
温馨提示
试读
8页
由于工作需要了解PageRank的知识。网上关于这块的介绍不是很系统。这里翻译了《An Introduction to information retrieval》教材中关于PageRank的介绍。应该说教材中关于这部分的介绍是很清晰的。只是个人水平有限,一些地方翻译的很狼狈,还望见谅。原书可以在http://nlp.stanford.edu/IR-book/information-retrieval-book.html 下载到
资源推荐
资源详情
资源评论
由于工作需要了解 PageRank 的知识。网上关于这块的介绍不是很系统。这里翻译了《 An
Introducon to informaon retrieval》教材中关于 PageRank 的介绍。应该说教材中关于这部
分的介绍是很清晰的。只是个人水平有限,一些地方翻译的很狼狈,还望见谅。原书可以
在 hp://nlp.stanford.edu/IR-book/informaon-retrieval-book.html 下载到。或者在国内一些
常见站点 csdn,新浪共享等都能找到。Good luck!
Email: zyy571137@gmail.com
PageRank
我们现在单独来来考察一些源于 derived from 链接结构 link structure 的打分和排序操作。
链接分析的的第一种技术称为 PageRank,它赋给每一个在 web 有向图中的节点一个在 0 到
1 的分数。每一个节点的 PageRank 分数取决于整个 web 有向图的链接结构。给定一个查询
词 query,web 搜索引擎会给每一个 web 页面计算一个复合的分数,该分数融合了几百种
hundreds of 特 征 结 果 , 比 如 余 弦 相 似 性( 6.3 节), term 相似性 term proximity 以 及
PageRank 分数等。这种复合分数的计算使用了 15.4.1 节提到的方法,用来提供一个查询词
query 的排序结果。
考虑这样一种随机的网上冲浪行为。一个网上冲浪者从某一个 web 页面开始(web 有
向图的一个节点 node),通过下面的随机方式在 Web 中经过的路径:在每一次新的尝试中,
网上冲浪者从它(不是她或他)当前的页面 A 随机地选择到达一个 A 所超链接到的页面上。
图 2.1 刻画了冲浪者在节点 A,该节点有 3 个超链接,分别指向 B,C,D。在这种情况下,
冲浪者下一次随机访问这三个节点(B,C,D)的概率都是 1/3.
当冲浪者按照这样随机的方式从一个节点走到另一个节点的时候,它对某些节点的访
问次数会比其他节点多。直觉告诉我们,这些节点能被访问多次,是因为其他被访问多次
的节点有较多的指向该节点的链接。PageRank 技术的假设就是,通过这样方式(即冲浪者
以随机的方式访问页面中的出现的页面),被访问次数多的页面更为重要。
如果冲浪者在当前页面 A 中没有链接 out-link 该怎么如何处理?为了处理 address 这样
的情形,我们为冲浪者引入一个附加动作:跳跃 teleport 操作。在跳跃操作中,冲浪者会
从一个节点直接跳跃 jump 到 web 有向图的其他节点上去(按照下文的意思,新节点可能
是当前节点)。这种情况可能会发生,比如冲浪者可能会直接在它的浏览器的 URL 域 URL
bar 中输入一个地址。一个跳跃操作的目的地定义为通过统一的随机的方式从所有的 web
页面中选择一个(作为目的地)。换句话说,如果 N 是 web 有向图中的所有节点数目,则
资源评论
- fanfan1632012-11-04还行,讲的挺详细的
- Ditto2013-03-21原材料很清晰,作者态度也比较严谨,多谢。
zyy_huaweiren
- 粉丝: 5
- 资源: 18
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于SpringBoot+Vue3快速开发平台、自研工作流引擎源码设计.zip
- docker安装部署全流程
- 基于树莓派的人脸识别系统python源码+项目部署说明+超详细代码注释.zip
- Python和R爬取分析赶集网北京二手房数据.zip
- Python和R爬取分析赶集网北京二手房数据.zip
- Java知识体系最强总结(2021版).txt
- Python知识点Python知识点Python知识点Python知识点Python知识点PythonPython知识点.txt
- Java开发基于seetaface6的人脸识别(活体检测)的封装源码.zip
- JSP在线失物招领管理平台源码.zip
- JSP在线旅游美食展现管理系统源码.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功