没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
Hadoop Map/Reduce 教程[一]
编辑删除权限设置更多 ▼
更多 ▲
设置置顶
推荐日志
转为私密日志
开心延年 发表于 年 月 日阅读评论分类:搜索与存储权限公开
今天浏览了下 的 文档,初步感觉这东西太牛逼了,听
我在这里给你吹吹。
你可以这样理解,假设你有很多台烂机器(假设 台)
利用 他会帮你组装成一台超级计算机(集群),你的这台计算机是
超多核的(很多个 ),一个超级大的硬盘,而且容错和写入速度都很快。
如果你的计算任务可以拆分,那么通过 他可以统一指挥你的
那一帮烂机器,让一堆机器帮你一起干活(并行计算),谁干什么,负责什
么,他来管理,通常处理个几 的数据,只要你有机器那就小 。
要分析的数据通常都是巨大的 级,网络 开销不可忽视,但分
析程序通常不会很大,所以他传递的是计算方法(程序),而不是数据文件,
所以每次计算在物理上都是在相近的节点上进行(同一台机器或同局域网),
大大降低的 消耗,而且计算程序如果要经常使用的话也是可以做缓存的。
是一个分布式的文件系统,他就像一个管家,管理你数据的存放,
在物理上较远的地方会分别存放(这样一是不同的地方读取数据都很快,也起
到了异地容灾的作用),他会动态管理和调动你的数据节点,高强的容错处
理,最大程度的降低数据丢失的风险。
比较著名的应用: ! 搜索引擎的蜘蛛抓取程序,数据的存储以及
" #网页重要程序计算。$$ 空间的日志分析处理(%%)
咋样,给他吹的够牛了吧。下面是别人翻译的官方文档,经常做日志分析处理
的同学可以研究下。
目的
这篇教程从用户的角度出发,全面地介绍了 &'( 框架的各
个方面。
先决条件
请先确认 & 被正确安装、配置和正常运行中。更多信息见:
快速入门 对初次使用者。
集群搭建 对大规模分布式集群。
概述
&'( 是一个使用简易的软件框架,基于它写出来的应用程序
能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并
行处理上 级别的数据集。
一个 ('
作业(
job
)
通常会把输入的数据集切分为若干独立的数据
块,由 map
任务(
task
)
以完全并行的方式处理它们。框架会对 的输出
先进行排序, 然后把结果输入给 reduce
任务
。通常作业的输入和输出都会被
存储在文件系统中。 整个框架负责任务的调度和监控,以及重新执行已经失败
的任务。
通常,( 框架和分布式文件系统是运行在一组相同的节点上的,也
就是说,计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好
数据的节点上高效地调度任务,这可以使整个集群的网络带宽被非常高效地利
用。
( 框架由一个单独的 )!'*+#'和每个集群节点一个
),-')## 共同组成。)! 负责调度构成一个作业的所有任务,
这些任务分布在不同的 ),- 上,)! 监控它们的执行,重新执行已经失
败的任务。而 ),- 仅负责执行由 )! 指派的任务。
应用程序至少应该指明输入输出的位置(路径),并通过实现合适的接口或抽
象类提供 和 函数。再加上其他作业的参数,就构成了
作业配置
(
job conguration
)
。然后,& 的 job client 提交作业(. 包可执
行程序等)和配置信息给 *+#,后者负责分发这些软件和配置信息给
),-、调度任务并监控它们的执行,同时提供状态和诊断信息给 .+/,0 !。
虽然 & 框架是用 *-
(
实现的,但 ( 应用程序则不一定要
用 *- 来写 。
是一种运行作业的实用工具,它允许用户创建和运行任何可执行
程序(例如: 工具)来做为 和 。
是一个与
兼容的 !""#(没有基于 $%
&'
技术),它也可用
于实现 '() 应用程序。
输入与输出
( 框架运转在1#2'-,3'键值对上,也就是说, 框架把作业
的输入看为是一组1#2'-,3'键值对,同样也产出一组 1#2'-,3'键
值对做为作业的输出,这两组键值对的类型可能不同。
框架需要对 #2 和 -, 的类,)))进行序列化操作, 因此,这些类需要
实现 40!+,
''
接口。 另外,为了方便框架执行排序操作,#2 类必须实现
40!+,+,
''
接口。
一个 ('作业的输入和输出类型如下所示:
0 !'1#'-3'/3'map'/3'1#'-3'/3'combine'/3'1#'-3'/3'
reduce'/3'1#'-3'!!'
例子:WordCount v1.0
在深入细节之前,让我们先看一个 ( 的应用示例,以便对它们的工
作方式有一个初步的认识。
4 ! 是一个简单的应用,它可以计算出指定数据集中每一个单词出现
的次数。
这个应用适用于 单机模式, 伪分布式模式 或 完全分布式模式 三种 &
安装方式。
源代码
WordCount.java
* +*,-
*
.* /0**123-
4* /0**5-
*
6* ***7*-
8* ***7*5-
9* ****5-
* ****5-
* ****5-
*
* :!;
.*
4*
<< : ' 3 ')= '>?:@ &3@ &3@
:A;
* <<<<07:BC:-
6* <<<<0&3CBC&3-
8*
9*
<<<< :0?:+,@ &30@1!>&3@ :A @ )
C123;
* <<<<<<B0*-
* <<<<<<&+D+DBC&+D-
* <<<<<<C+D*'&+;
* <<<<<<<<C*+D*3&+-
.* <<<<<<<<*C@-
4* <<<<<<E
* <<<<E
6* <<E
8*
9*
<< : ) 3 ')= )>&3@ :@ &3@
:A;
*
<<<< :0&3+,@>:A0@1!>&3@:A@
)C123;
.* <<<<<<B-
.* <<<<<<C0*%3;
.* <<<<<<<<"B0*3*-
..* <<<<<<E
.4* <<<<<<*+,@C:-
.* <<<<E
.6* <<E
.8*
.9* <<:0FGC23;
.* <<<<$:!77BC$:!7!*-
4* <<<<7*$:%HCH-
4*
4* <<<<7*1I,!&3*-
4.* <<<<7*1J!:*-
44*
4* <<<<7*'!'*-
46* <<<<7*!:!)*-
48* <<<<7*)!)*-
49*
4* <<<<7*K&3K*-
* <<<<7*1K&31K*-
*
* <<<<KK*7@CFG-
.* <<<<K1K*17@CFG-
4*
* <<<<$:!*$:7-
8* <<E
9* E
*
用法
剩余41页未读,继续阅读
资源评论
muyannian
- 粉丝: 79
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功