分布式计算开源框架Hadoop入门实践资源-CSDN文库

海量存储

hadoop

5星 · 超过95%的资源需积分: 10 169 浏览量 2010-05-26 10:07:46 上传评论收藏 294KB PDF 举报

资源详情

资源评论

资源推荐

分布式计算开源框架 Hadoop 入门实践

作者介绍：岑文初，就职于阿里软件公司研发中心平台一部，任架构师。当前主要工作涉及

阿里软件开发平台服务框架（

ASF

）设计与实现，服务集成平台（

SIP

）设计与实现。没有

什么擅长或者精通，工作到现在唯一提升的就是学习能力和速度。

一、分布式计算开源框架 Hadoop 实践

在 SIP 项目设计的过程中，对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模

式来分析统计，在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与

实现》中有所提到。但是由于统计的内容暂时还是十分简单，所以就采用 Memcache 作为

计数器，结合 MySQL 就完成了访问控制以及统计的工作。然而未来，对于海量日志分析的

工作，还是需要有所准备。现在最火的技术词汇莫过于“云计算”，在 Open API 日益盛行的

今天，互联网应用的数据将会越来越有价值，如何去分析这些数据，挖掘其内在价值，就需

要分布式计算来支撑海量数据的分析工作。

回过头来看，早先那种多线程，多任务分解的日志分析设计，其实是分布式计算的一个单机

版缩略，如何将这种单机的工作进行分拆，变成协同工作的集群，其实就是分布式计算框架

设计所涉及的。在去年参加 BEA 大会的时候，BEA和 VMWare 合作采用虚拟机来构建集群，

无非就是希望使得计算机硬件能够类似于应用程序中资源池的资源，使用者无需关心资源的

分配情况，从而最大化了硬件资源的使用价值。分布式计算也是如此，具体的计算任务交由

哪一台机器执行，执行后由谁来汇总，这都由分布式框架的 Master 来抉择，而使用者只需

简单地将待分析内容提供给分布式计算系统作为输入，就可以得到分布式计算后的结果。

Hadoop 是 Apache 开源组织的一个分布式计算开源框架，在很多大型网站上都已经得到了

应用，如亚马逊、Facebook 和 Yahoo 等等。对于我来说，最近的一个使用点就是服务集

成平台的日志分析。服务集成平台的日志量将会很大，而这也正好符合了分布式计算的适用

场景（日志分析和索引建立就是两大应用场景）。

当前没有正式确定使用，所以也是自己业余摸索，后续所写的相关内容，都是一个新手的学

习过程，难免会有一些错误，只是希望记录下来可以分享给更多志同道合的朋友。

什么是 Hadoop？

搞什么东西之前，第一步是要知道 What（是什么），然后是 Why（为什么），最后才是 H

ow（怎么做）。但很多开发的朋友在做了多年项目以后，都习惯是先 How，然后 What，

最后才是 Why，这样只会让自己变得浮躁，同时往往会将技术误用于不适合的场景。

Hadoop 框架中最核心的设计就是：MapReduce 和 HDFS。MapReduce 的思想是由 Google

的一篇论文所提及而被广为流传的，简单的一句话解释 MapReduce 就是“任务的分解与结

果的汇总”。HDFS 是 Hadoop 分布式文件系统（Hadoop Distributed File System）的缩写，

为分布式计算存储提供了底层支持。

MapReduce 从它名字上来看就大致可以看出个缘由，两个动词 Map 和 Reduce，“Map（展

开）”就是将一个任务分解成为多个任务，“Reduce”就是将分解后多任务处理的结果汇总起

来，得出最后的分析结果。这不是什么新思想，其实在前面提到的多线程，多任务的设计就

可以找到这种思想的影子。不论是现实社会，还是在程序设计中，一项工作往往可以被拆

分成为多个任务，任务之间的关系可以分为两种：一种是不相关的任务，可以并行执行；

另一种是任务之间有相互的依赖，先后顺序不能够颠倒，这类任务是无法并行处理的。回到

大学时期，教授上课时让大家去分析关键路径，无非就是找最省时的任务分解执行方式。

在分布式系统中，机器集群就可以看作硬件资源池，将并行的任务拆分，然后交由每一个空

闲机器资源去处理，能够极大地提高计算效率，同时这种资源无关性，对于计算集群的扩

展无疑提供了最好的设计保证。（其实我一直认为 Hadoop 的卡通图标不应该是一个小象，

应该是蚂蚁，分布式计算就好比蚂蚁吃大象，廉价的机器群可以匹敌任何高性能的计算机，

纵向扩展的曲线始终敌不过横向扩展的斜线）。任务分解处理以后，那就需要将处理以后的

结果再汇总起来，这就是 Reduce 要做的工作。

图 1：MapReduce 结构示意图

上图就是 MapReduce 大致的结构图，在 Map 前还可能会对输入的数据有 Split（分割）的

过程，保证任务并行效率，在 Map 之后还会有 Shuffle（混合）的过程，对于提高 Reduce

的效率以及减小数据传输的压力有很大的帮助。后面会具体提及这些部分的细节。

HDFS 是分布式计算的存储基石，Hadoop 的分布式文件系统和其他分布式文件系统有很多

类似的特质。分布式文件系统基本的几个特点：

1. 对于整个集群有单一的命名空间。

2. 数据一致性。适合一次写入多次读取的模型，客户端在文件没有被成功创建之前无

法看到文件存在。

3. 文件会被分割成多个文件块，每个文件块被分配存储到数据节点上，而且根据配置

会由复制文件块来保证数据的安全性。

最后再说一下 HDFS 的几个设计特点（对于框架设计值得借鉴）：

1. Block 的放置：默认不配置。一个 Block 会有三份备份，一份放在 NameNode 指定

的 DataNode，另一份放在与指定 DataNode 非同一 Rack 上的 DataNode，最后一

份放在与指定 DataNode 同一 Rack 上的 DataNode 上。备份无非就是为了数据安

全，考虑同一 Rack 的失败情况以及不同 Rack 之间数据拷贝性能问题就采用这种配

置方式。

2. 心跳检测 DataNode 的健康状况，如果发现问题就采取数据备份的方式来保证数据

的安全性。

3. 数据复制（场景为 DataNode 失败、需要平衡 DataNode 的存储利用率和需要平衡

DataNode 数据交互压力等情况）：这里先说一下，使用 HDFS 的 balancer 命令，可

以配置一个 Threshold 来平衡每一个 DataNode 磁盘利用率。例如设置了 Threshol

d 为 10%，那么执行 balancer 命令的时候，首先统计所有 DataNode 的磁盘利用

率的均值，然后判断如果某一个 DataNode 的磁盘利用率超过这个均值 Threshold

以上，那么将会把这个 DataNode 的 block 转移到磁盘利用率低的 DataNode，这对

于新节点的加入来说十分有用。

4. 数据交验：采用 CRC32 作数据交验。在文件 Block 写入的时候除了写入数据还会写

入交验信息，在读取的时候需要交验后再读入。

5. NameNode 是单点：如果失败的话，任务处理信息将会纪录在本地文件系统和远端

的文件系统中。

6. 数据管道性的写入：当客户端要写入文件到 DataNode 上，首先客户端读取一个 B

lock 然后写到第一个 DataNode 上，然后由第一个 DataNode 传递到备份的 DataN

ode 上，一直到所有需要写入这个 Block 的 NataNode 都成功写入，客户端才会继续

开始写下一个 Block。

7. 安全模式：在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文

件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到

安全模式结束。安全模式主要是为了系统启动的时候检查各个 DataNode 上数据块

的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以

进入安全模式。在实践过程中，系统启动的时候去修改和删除文件也会有安全模式

不允许修改的出错提示，只需要等待一会儿即可。

下面综合MapReduce 和 HDFS 来看 Hadoop 的结构：

剩余18页未读，继续阅读

衣袋

2011-09-19

非常好的资料，简单易懂，多谢了！

评论收藏

内容反馈

lichangyou_luck

粉丝: 4
资源: 8

分布式计算开源框架Hadoop入门实践

评论1

最新资源

分布式计算开源框架Hadoop入门实践

评论1

Hadoop入门实践

分布式计算开源框架hadoop入门实践 高清完整中文版PDF下载

分布式计算开源框架Hadoop入门实践.pdf

hadoop分布式计算开源框架Hadoop入门

分布式计算开源框架Hadoop入门实践.docx

hadoop 入门

Hadoop_入门实践

分布式计算开源框架Hadoop介绍

多媒体通信教学材料1

云计算关键技术相关文档

word源码java-hadoop-v1:hadoop入门

大数据与云计算技术 Hadoop概论和快速入门 共40页.ppt

Hadoop从入门到精通|Java大数据零基础

分布式计算开源框架Hadoop介绍.doc

分布式计算开源框架Hadoop介绍.docx

1.1.1 Spark基础入门

spark入门学习基础知识

python大作业 含爬虫、数据可视化、地图、报告、及源码（整和为一个文件）（2014-2020全国各地区原油加工量）.rar

仿真电路以及操作方法

最新资源

分布式计算开源框架hadoop入门实践高清完整中文版PDF下载

大数据与云计算技术 Hadoop概论和快速入门共40页.ppt

python大作业含爬虫、数据可视化、地图、报告、及源码（整和为一个文件）（2014-2020全国各地区原油加工量）.rar