没有合适的资源?快使用搜索试试~ 我知道了~
Ch5-MapReduce算法设计1
需积分: 0 0 下载量 21 浏览量
2022-08-03
18:06:13
上传
评论
收藏 4.55MB PDF 举报
温馨提示
试读
94页
1.MapReduce可解决哪些算法问题 2.回顾:MapReduce处理流程 3.MapReduce排序算法 4.MapReduce单词同现分析算法 5.Ma
资源详情
资源评论
资源推荐
鸣谢:本课程得到Google (北京)与Intel公司
中国大学合作部精品课程计划资助
Ch.5. MapReduce算法设计
1.MapReduce可解决哪些算法问题?
2.回顾:MapReduce处理流程
3.MapReduce排序算法
4.MapReduce单词同现分析算法
5.MapReduce文档倒排索引算法
6.专利文献数据分析
7.实验2:文档倒排索引实验
自MapReduce发明后,Google大量用于各种海量数据处理,目前
Google内部有7千以上的程序基于MapReduce实现。MapReduce
可广泛应用于搜索引擎(文档倒排索引,网页链接图分析与
页面排序等)、Web日志分析、文档分析处理、机器学习、
机器翻译等
各种大规模
数据并行计
算应用领域
各类大规模
数据并行处
理算法。
Cite from Google
基本算法
各种全局数据相关性小、能适当划分数据的计算任务,如:
分布式排序
分布式GREP(文本匹配查找)
关系代数操作
如:选择,投影,求交集、并集,连接,成组,聚合…
矩阵向量相乘、矩阵相乘
词频统计(word count),词频重要性分析(TF-IDF)
单词同现关系分析
典型的应用如从生物医学文献中自动挖掘基因交互作用关系
文档倒排索引
……
复杂算法或应用
Web搜索
网页爬取、倒排索引、网页排序、搜索算法
Web访问日志分析
分析和挖掘用户在Web上的访问、购物行为特征、以定制个
性化用户界面或投放用户感兴趣的产品广告
数据/文本统计分析
如科技文献引用关系分析和统计、专利文献引用分析和统计
图算法
并行化宽度优先搜索(最短路径问题,可克服Dijkstra串行算法
的不足),最小生成树,子树搜索、比对
Web链接图分析算法PageRank,垃圾邮件连接分析
聚类(clustring)
文档聚类、图聚类、其它数据集聚类
剩余93页未读,继续阅读
我要WhatYouNeed
- 粉丝: 42
- 资源: 287
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0