hadoop源码分析-HDFS部分资源-CSDN文库

hadoop

HDFS

5星 · 超过95%的资源需积分: 4 99 浏览量 2012-10-21 14:05:13 上传评论收藏 4.08MB DOC 举报

资源推荐

资源详情

资源评论



Hadoop

源代码分析（一）总括

关键字: 分布式云计算

经济不行啦，只好潜心研究技术。

 的核心竞争技术是它的计算平台。 的大牛们用了下面  篇文章，介绍了它们的计算设施。

： 

：

 ：!

"#：

$%&：&

很快，' 上就出现了一个类似的解决方案，目前它们都属于 ' 的 (& 项目，对应的分别是：

)*+

 )(, 

"#)("

$%&)(&

目前，基于类似思想的 -.  项目还很多，如 / 用于用户分析的 (。

(, 作为一个分布式文件系统，是所有这些项目的基础。分析好 (, ，有利于了解其他系统。由于 (& 的 (, 和

$%& 是同一个项目，我们就把他们放在一块，进行分析。

下图是 $%& 整个项目的顶层包图和他们的依赖关系。(& 包之间的依赖关系比较复杂，原因是 (, 提供了一

个分布式文件系统，该系统提供 '01，可以屏蔽本地文件系统和分布式文件系统，甚至象 '2. 3 这样的在线存储系统。

这就造成了分布式文件系统的实现，或者是分布式文件系统的底层的实现，依赖于某些貌似高层的功能。功能的相互引用，造

成了蜘蛛网型的依赖关系。一个典型的例子就是包 .!，.! 用于读取系统配置，它依赖于 !，主要是读取配置文件的时候，

需要使用文件系统，而部分的文件系统的功能，在包 ! 中被抽象了。

(& 的关键部分集中于图中蓝色部分，这也是我们考察的重点。

net

封装部分网络功能，如 DNS，socket

security

用户和用户组信息

conf

系统的配置参数

metrics

系统统计数据的收集，属于网管范畴

util

工具类

record

根据 DDL（数据描述语言）自动生成他们的编解码函

数，目前可以提供 C++和 Java

http

基于 Jetty 的 HTTP Servlet，用户通过浏览器可以观察

文件系统的一些状态信息和日志

log

提供 HTTP 访问日志的 HTTP Servlet



Hadoop

源代码分析（三）对象序列化

由于 (& 的 $%& 和 (, 都有通信的需求，需要对通信的对象进行序列化。(& 并没有采用 6 的序列

化，而是引入了它自己的系统。

& 中定义了大量的可序列化对象，他们都实现了 7 接口。实现了 7 接口的一个典型例

子如下：

Java 代码

 publicclassMyWritableimplementsWritable{ 

 //Somedata 

3 privateintcounter; 

 privatelongtimestamp; 

 4444

8 44444&49:,-4;4941-<=.4>44444

? 4444444491.:.;@44444

 444444449A.:;@44444

5 4444B44444

 44444444

 44444&4&&:,1.4.;4941-<=.4>44444

 44444444.4C4.&1.:;@44444

3 444444444C4.&A.:;@44444

 4444B44444

 4444

8 444444$74&:,1.4.;4941-<=.4>44444

? 44444444$7494C4.94$7:;@44444

 444444449&&:.;@44444

5 44444444.49@44444

 4444B44444

 B444



其中的 write 和 readFields 分别实现了把对象序列化和反序列化的功能，是 Writable 接口定义的两个方法。下图给出了庞大的

org.apache.hadoop.io 中对象的关系。



这里，我把 -D7 标为红色，是因为相对于其他对象，它有不同的地位。当我们讨论 (& 的 %0 时，我们会

提到 %0 上交换的信息，必须是 6 的基本类型， . 和 7 接口的实现类，以及元素为以上类型的数组。

-D7 对象保存了一个可以在 %0 上传输的对象和对象的类型信息。这样，我们就有了一个万能的，可以用于客户

端服务器间传输的 7 对象。例如，我们要把上面例子中的对象作为 %0 请求，需要根据 $7 创建一个

-D7，-D7 往流里会写如下信息

对象类名长度，对象类名，对象自己的串行化结果

这样，到了对端，-D7 可以根据对象类名创建对应的对象，并解串行。应该注意到，-D7 依赖于 WritableFactories，那

存储了 7 子类对应的工厂。我们需要把 MyWritable 的工厂，保存在 WritableFactories 中（通过

7setFactory）。



Hadoop

源代码分析（四） compress 分析预留

为 org.apache.hadoop.io.compress 等的分析预留位置



Hadoop

源代码分析（五） RPC 框架

介绍完 & 以后，我们开始来分析 &。%0 采用客户机服务器模式。请求程序

就是一个客户机，而服务提供程序就是一个服务器。当我们讨论 (, 的，通信可能发生在：

 .EE& 之间，其中 EE& 是服务器

 .,E& 之间，其中 ,E& 是服务器

 ,E&EE& 之间，其中 EE& 是服务器

 ,E&,E& 之间，其中某一个 ,E& 是服务器，另一个是客户端

如果我们考虑 (& 的 $%& 以后，这些系统间的通信就更复杂了。为了解决这些客户机服务器之间的通信，

(& 引入了一个 %0 框架。该 %0 框架利用的 6 的反射能力，避免了某些 %0 解决方案中需要根据某种接口语言

（如 -%"' 的 1,A）生成存根和框架的问题。但是，该 %0 框架要求调用的参数和返回结果必须是 6 的基本类型，

. 和 7 接口的实现类，以及元素为以上类型的数组。同时，接口方法应该只抛出 1-<=. 异常。（参考自

2.3?D838）

既然是 %0，当然就有客户端和服务器，当然，& 也就有了类 . 和类 。但是类 

是一个抽象类，类 %0 封装了 ，利用反射，把某个对象的方法开放出来，变成 %0 中的服务器。

下图是 & 的类图。

?

Hadoop

源代码分析（六） RPC-Client

既然是 %0，自然就有客户端和服务器，当然，& 也就有了类 . 和类 。在这里我们来仔

细考察 &.。下面的图包含了 &. 中的关键类和关键方法。

由于 . 可能和多个  通信，典型的一次 (, 读，需要和 EE& 打交道，也需要和某个某些 ,E& 通

信。这就意味着某一个 . 需要维护多个连接。同时，为了减少不必要的连接，现在 . 的做法是拿 ...1&

（图中最右侧）来做为 ... 的 1,。...1& 包括一个 1. /'&&（10 地址F端口号或主机名F端口

号）对象和一个用户信息对象。这就是说，同一个用户到同一个 1. /'&& 的通信将共享同一个连接。

剩余63页未读，继续阅读

评论收藏

内容反馈

Choc322

2013-10-24

很好的资料，关于HDFS的讲解的

t890211

粉丝: 3
资源: 9

hadoop源码分析-HDFS部分

hadoop源码分析-HDFS&MapReduce

Hadoop源码分析HDFS数据流

hadoop段海涛老师八天实战视频

Hadoop源码分析 完整版 共55章

零基础学习Hadoop3.0从入门到源码

新版Hadoop视频教程 段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发

hdfs源码剖析 基于hadoop2.6

Hadoop源码分析完整版

hadoop 源码分析全

Hadoop源代码分析之HDFS篇.

Hadoop源码分析PDF(高清版)

Hadoop 培训课程(2)HDFS

hadoop-2.5.2:1.HDFS源码分析，代码注释参考自《 Hadoop2.x HDFS源码剖析》

百度翻译源码java-Big-Data-Hadoop-and-Spark-Developer:大数据/SCALA/HADOOP

Hadoop中HDFS源代码分析

Hadoop之HDFS源代码分析 pdf

Zabbix6.0中文手册

nacos2.2.3软件包（win+linux）.zip

本地部署开源大模型的完整教程LangChain + Streamlit+ Llama

postman免安装

【大灰狼远程管理软件 V9.8至尊版】

Kubernetes in Action中文版.pdf

jenkins 2.346.1 支持jdk1.8的最后一版本，公司还在用jdk1.8的可以考虑

VASP5.4.4 安装包，可直接进行下一步tar

储能EMS能量管理系统(1).pdf

云原生架构白皮书.pdf

nginx arm64版本nginx-linux-arrch64.zip

最新资源

Hadoop源码分析完整版共55章

新版Hadoop视频教程段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发

hdfs源码剖析基于hadoop2.6