hadoop源码分析资源-CSDN文库

需积分: 9 196 浏览量 2011-05-21 21:48:54 上传评论收藏 5.91MB DOC 举报

Hadoop是一个开源的分布式计算框架，它由Apache软件基金会维护，并且是大数据处理领域的重要组成部分。Hadoop的设计灵感来源于Google的几篇论文，包括GoogleCluster、Chubby、GFS、BigTable和MapReduce。这些论文揭示了Google如何构建大规模分布式计算系统。在Hadoop中，我们可以看到与这些技术相对应的实现，例如Chubby对应ZooKeeper，GFS对应HDFS，BigTable对应HBase，而MapReduce则直接在Hadoop中得到实现。 Hadoop的核心组件包括两个主要部分：Hadoop分布式文件系统（HDFS）和MapReduce计算模型。HDFS是一个高容错性的分布式文件系统，它设计用于存储大量数据并保证高吞吐量的数据访问。HDFS将大型文件分割成块，并将这些块复制到多台机器上，以提高可用性和容错性。HDFS的API使得应用程序能够透明地访问分布式文件系统，而无需关心底层实现的细节。 MapReduce则是处理大数据的一种编程模型，它将复杂的计算任务分解为“映射”（map）和“化简”（reduce）两步。映射阶段，数据被分发到集群中的多个节点上进行并行处理；化简阶段，处理结果被聚合起来，生成最终的输出。这种模型非常适合于批处理任务，如数据分析、日志处理等。在Hadoop的源码中，我们可以看到各个包之间的复杂依赖关系。例如，`fs`包提供了文件系统的抽象接口，允许对不同类型的文件系统进行统一访问，包括本地文件系统和分布式文件系统。`ipc`包实现了一个简单的远程过程调用（RPC）机制，这对于HDFS和MapReduce之间的通信至关重要。`io`包则包含了数据编码和解码的工具，使得数据可以在网络间高效传输。`security`包处理用户认证和权限管理，确保系统的安全性。`metrics`包则负责收集系统的运行时统计信息，便于监控和管理。 Hadoop的序列化机制是其另一个重要特性。它没有使用Java自带的序列化机制，而是定义了自己的`Writable`接口。所有需要在网络间传输的对象都必须实现这个接口，以便进行高效的序列化和反序列化操作。这提高了数据在网络上的传输效率，同时也降低了跨语言交互的复杂性。 Hadoop源码分析涵盖了分布式文件系统的设计原理、分布式计算模型的实现以及相关的通信、安全和监控机制。深入理解Hadoop的源码，有助于开发者更好地利用这个框架来处理大数据问题，同时也能为优化分布式系统提供宝贵的经验。

资源推荐

资源详情

资源评论

Hadoop

源代码分析（一）

关键字分布式云计算

 的核心竞争技术是它的计算平台。 的大牛们用了下面  篇文章，介绍了它们的计算设施。

： 

：

：

：

 ： 

很快，! 上就出现了一个类似的解决方案，目前它们都属于 ! 的 "  项目，对应的分别是：

##$%&

##$"'

##$"

 ##$" 

目前，基于类似思想的 () 项目还很多，如 * 用于用户分析的 "。

"' 作为一个分布式文件系统，是所有这些项目的基础。分析好 "'，有利于了解其他系统。由于 "  的 "' 和

  是同一个项目，我们就把他们放在一块，进行分析。

下图是   整个项目的顶层包图和他们的依赖关系。"  包之间的依赖关系比较复杂，原因是 "' 提供了一

个分布式文件系统，该系统提供 !+,，可以屏蔽本地文件系统和分布式文件系统，甚至象 !-). 这样的在线存储系统。

这就造成了分布式文件系统的实现，或者是分布式文件系统的底层的实现，依赖于某些貌似高层的功能。功能的相互引用，造

成了蜘蛛网型的依赖关系。一个典型的例子就是包 )，) 用于读取系统配置，它依赖于 ，主要是读取配置文件的时候，

需要使用文件系统，而部分的文件系统的功能，在包  中被抽象了。

"  的关键部分集中于图中蓝色部分，这也是我们考察的重点。

的一些状态信息和日志

log

提供 HTTP 访问日志的 HTTP Servlet

Hadoop

源代码分析（三）

由于 "  的   和 "' 都有通信的需求，需要对通信的对象进行序列化。"  并没有采用 / 的序列

化，而是引入了它自己的系统。

  中定义了大量的可序列化对象，他们都实现了 0 接口。实现了 0 接口的一个典型例

子如下：

 代码

 

 

 

  !

" 

# $%&'()$*'+,!

- $*%(

. $/ %!(

0 1

2 

 3%&*()$*'+,!

 4*%(

 !4/ %(

 1

" 

# !%&*()$*'+,!

- $4$%(

. $3%(

0 $

2 1

 1

其中的 1 和    分别实现了把对象序列化和反序列化的功能，是 0 接口定义的两个方法。下图给出了庞

大的   中对象的关系。



这里，我把 (20 标为红色，是因为相对于其他对象，它有不同的地位。当我们讨论 "  的 + 时，我们会

提到 + 上交换的信息，必须是 / 的基本类型，) 和 0 接口的实现类，以及元素为以上类型的数组。

(20 对象保存了一个可以在 + 上传输的对象和对象的类型信息。这样，我们就有了一个万能的，可以用于客户

端服务器间传输的 0 对象。例如，我们要把上面例子中的对象作为 + 请求，需要根据 0 创建一个

(20，(20 往流里会写如下信息

对象类名长度，对象类名，对象自己的串行化结果

这样，到了对端，(20 可以根据对象类名创建对应的对象，并解串行。应该注意到，(20 依赖于

0，那存储了 0 子类对应的工厂。我们需要把 0 的工厂，保存在 0 中

（通过 0setFactory）。

Hadoop

源代码分析（五）

介绍完   以后，我们开始来分析  。+ 采用客户机服务器模式。请求程序

就是一个客户机，而服务提供程序就是一个服务器。当我们讨论 "' 的，通信可能发生在：

 5677 之间，其中 77 是服务器

 56&7 之间，其中 &7 是服务器

 &7677 之间，其中 77 是服务器

 &76&7 之间，其中某一个 &7 是服务器，另一个是客户端

如果我们考虑 "  的   以后，这些系统间的通信就更复杂了。为了解决这些客户机服务器之间的通信，

"  引入了一个 + 框架。该 + 框架利用的 / 的反射能力，避免了某些 + 解决方案中需要根据某种接口语言

（如 (! 的 ,'3）生成存根和框架的问题。但是，该 + 框架要求调用的参数和返回结果必须是 / 的基本类型，

) 和 0 接口的实现类，以及元素为以上类型的数组。同时，接口方法应该只抛出 ,(45) 异常。（参考自

-)6.78269.:9）

既然是 +，当然就有客户端和服务器，当然，  也就有了类 ) 和类 。但是类 

是一个抽象类，类 + 封装了 ，利用反射，把某个对象的方法开放出来，变成 + 中的服务器。

下图是   的类图。

Hadoop

源代码分析（六）

既然是 +，自然就有客户端和服务器，当然，  也就有了类 ) 和类 。在这里我们来仔

细考察  )。下面的图包含了  ) 中的关键类和关键方法。

由于 ) 可能和多个  通信，典型的一次 "' 读，需要和 ;;  打交道，也需要和某个某些 ';  通

信。这就意味着某一个 ) 需要维护多个连接。同时，为了减少不必要的连接，现在 ) 的做法是拿 ))),

（图中最右侧）来做为 ))) 的 ,'。))), 包括一个 ,)*! （,+ 地址<端口号或主机名<端口

号）对象和一个用户信息对象。这就是说，同一个用户到同一个 ,)*!  的通信将共享同一个连接。



连接被封装在类 )))) 中，所有的 + 调用，都是通过 )))，进行通信。一个 + 调用，自然有输入

参数，输出参数和可能的异常，同时，为了区分在同一个 ))) 上的不同调用，每个调用都有唯一的  。调用是否结

束也需要一个标记，所有的这些都体现在对象 ) 中。))) 对象通过一个 " 表，维护在这个连接上的所

有 ：

 代码

 8)9* :5;4$8)9* :5;%(



一个 + 调用通过  ，把请求加到 ))) 里。为了能够在这个框架上传输 / 的基本类型，) 和

0 接口的实现类，以及元素为以上类型的数组，我们一般把  需要的参数打包成为 (20 对象。

)))) 会通过 * 连接服务器，连接成功后回校验客户端服务器的版本号

（))))1" =>方法），校验成功后就可以通过 0 对象来进行请求的发送应答了。注意，每个

)))) 会起一个线程，不断去读取 *，并将收到的结果解包，找出对应的 ，设置  并通知结果已经

获取。

 使用 (2 的 1 和 )，把 + 上的异步消息交互转成同步调用。

还有一点需要注意，一个 ) 会有多个 ))))，这是一个很自然的结果。

Hadoop

源代码分析（七）

聊完了 ) 聊 ，按惯例，先把类图贴出来。

剩余63页未读，继续阅读

评论收藏

内容反馈

wangliang87421

粉丝: 19
资源: 16

hadoop源码分析

Hadoop源码分析（完整版）

Hadoop源码分析视频下载

Hadoop源码分析 完整版 共55章

Hadoop源码分析完整版

hadoop 源码分析全

hadoop分析

Hadoop源码分析

Hadoop源码分析 第一章 Hadoop脚本

Hadoop源码分析.rar

Hadoop源码分析（client部分）

hadoop 源码分析 文档

hadoop源码

Hadoop源码分析（client端提交job到rm端）

Hadoop源码分析HDFS数据流

Hadoop源码分析PDF(高清版)

hadoop源码分析-mapreduce部分.doc

最新资源

Hadoop源码分析完整版共55章

Hadoop源码分析第一章 Hadoop脚本

hadoop 源码分析文档