大数据十大经典算法讲解(共34张PPT)精选.pptx资源-CSDN文库

需积分: 3 56 浏览量 2022-11-15 04:05:35 上传评论收藏 563KB PPTX 举报

资源推荐

资源详情

资源评论

大数据十大经典(jīngdiǎn)算法讲

解

第一页，共34页。

将n维Pagerank多次迭代，得到最后收敛的pagerank向量。

网络拓扑分析(fēnxī)

a = d * u * Lt * L * a

HITS: 分析网页(wǎnɡ yè)的导航度和权威度，由此来判断网页(wǎnɡ yè)的作用。

单击此处添加(tiān jiā)段落文字内容

为了克服这种问题，需要对PageRank计算方法进行一个平滑处理，具体做法是加入“跳转因子（teleporting）”。

由于L*Lt的求解(qiú jiě)不太方便，所以，用交迭的方式来计算h和a更好，每次计算都需要进行归一化。

单击此处添加(tiān jiā)段落文字内容

但是随着Web规模越来越大，这种方法非常困难，因为图的特定结构查找是时间复杂度非常高的一个算法，不可能完全靠这种方法反作弊。

某些网页提供某个主题的信息(xìnxī)，而且具有非常重要的信息(xìnxī)，这些网页被称为权威页

根据各数据块之间的相关性，计算缩略图p的Blockrank。

迭代拿掉图中的终止点及终止点相关的边（之所以迭代拿掉是因为当目前的终止点被拿掉后，可能会出现一批新的终止点），直到图中没有终止

点。

能否考虑先算出局部的Pagerank值？？

“导航页和权威页”的计算方式类似于pagerank，通过矩阵-向量的方式迭代，直到一个收敛的点。

1.早期(zǎoqī)搜索引擎的弊端

早期很多搜索引擎根本不

评价结果重要性，而是直

接按照某自然顺序（例如

时间顺序或编号

(biān hào)

顺序）返回结果。一旦结

果集变大，简直就是一场

灾难，这也注定这种方法

不可能用于现代的通用搜

索引擎

基于检索词评价的思想

非常朴素：检索关键词

出现次数越多的页面匹

配度越高，而匹配度越

高的页面重要性越高

作弊者可在他网页上增加一

个词项，并将该词项重复千

百次，搜索引擎可能以为该

网页与检索关键词高度相关

而把该网页放在搜索结果的

前列

第三页，共34页。

剩余33页未读，继续阅读

内容反馈

xinkai1688

粉丝: 347
资源: 8万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip