用Hadoop进行分布式并行编程资源-CSDN文库

Hadoop

4星 · 超过85%的资源需积分: 9 200 浏览量 2010-03-10 19:44:50 上传评论收藏 524KB PDF 举报

资源推荐

资源详情

资源评论

用 Hadoop 进行分布式并行编程第 1 部分

Hadoop 简介

Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架，由

于分布式存储对于分布式编程来说是必不可少的，这个框架中还包含了一个分布

式文件系统 HDFS( Hadoop Distributed File System )。也许到目前为止，

Hadoop 还不是那么广为人知，其最新的版本号也仅仅是 0.16，距离 1.0 似

乎都还有很长的一段距离，但提及 Hadoop 一脉相承的另外两个开源项目 Nu

tch 和 Lucene ( 三者的创始人都是 Doug Cutting ),那绝对是大名鼎鼎。L

ucene 是一个用 Java 开发的开源高性能全文检索工具包，它不是一个完整的

应用程序，而是一套简单易用的 API 。在全世界范围内，已有无数的软件系统，

Web 网站基于 Lucene 实现了全文检索功能，后来 Doug Cutting 又开创了

第一个开源的 Web 搜索引擎(http://www.nutch.org) Nutch, 它在 Luce

ne 的基础上增加了网络爬虫和一些和 Web 相关的功能，一些解析各类文档格

式的插件等，此外，Nutch 中还包含了一个分布式文件系统用于存储数据。从

Nutch 0.8.0 版本之后，Doug Cutting 把 Nutch 中的分布式文件系统以及

实现 MapReduce 算法的代码独立出来形成了一个新的开源项 Hadoop。Nut

ch 也演化为基于 Lucene 全文检索以及 Hadoop 分布式计算平台的一个开

源搜索引擎。

基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序，并将

其运行于由成百上千个结点组成的大规模计算机集群上。从目前的情况来看，H

adoop 注定会有一个辉煌的未来："云计算"是目前灸手可热的技术名词，全球

各大 IT 公司都在投资和推广这种新一代的计算模式，而 Hadoop 又被其中几

家主要的公司用作其"云计算"环境中的重要基础软件，如:雅虎正在借助 Hado

op 开源平台的力量对抗 Google, 除了资助 Hadoop 开发团队外，还在开发

基于 Hadoop 的开源项目 Pig, 这是一个专注于海量数据集分析的分布式计

算程序。Amazon 公司基于 Hadoop 推出了 Amazon S3 ( Amazon Sim

ple Storage Service )，提供可靠，快速，可扩展的网络存储服务，以及一个

商用的云计算平台 Amazon EC2 ( Amazon Elastic Compute Cloud )。

在 IBM 公司的云计算项目--"蓝云计划"中，Hadoop 也是其中重要的基础软

件。Google 正在跟 IBM 合作，共同推广基于 Hadoop 的云计算。

迎接编程方式的变革

在摩尔定律的作用下，以前程序员根本不用考虑计算机的性能会跟不上软件

的发展，因为约每隔 18 个月，CPU 的主频就会增加一倍，性能也将提升一倍，

软件根本不用做任何改变，就可以享受免费的性能提升。然而，由于晶体管电路

已经逐渐接近其物理上的性能极限，摩尔定律在 2005 年左右开始失效了，人

类再也不能期待单个 CPU 的速度每隔 18 个月就翻一倍，为我们提供越来越

快的计算性能。Intel, AMD, IBM 等芯片厂商开始从多核这个角度来挖掘 CP

U 的性能潜力，多核时代以及互联网时代的到来，将使软件编程方式发生重大

变革，基于多核的多线程并发编程以及基于大规模计算机集群的分布式并行编程

是将来软件性能提升的主要途径。

许多人认为这种编程方式的重大变化将带来一次软件的并发危机，因为我们

传统的软件方式基本上是单指令单数据流的顺序执行，这种顺序执行十分符合人

类的思考习惯，却与并发并行编程格格不入。基于集群的分布式并行编程能够让

软件与数据同时运行在连成一个网络的许多台计算机上,这里的每一台计算机均

可以是一台普通的 PC 机。这样的分布式并行环境的最大优点是可以很容易的

通过增加计算机来扩充新的计算结点，并由此获得不可思议的海量计算能力,

同时又具有相当强的容错能力，一批计算结点失效也不会影响计算的正常进行以

及结果的正确性。Google 就是这么做的，他们使用了叫做 MapReduce 的并

行编程模型进行分布式并行编程，运行在叫做 GFS ( Google File System )

的分布式文件系统上，为全球亿万用户提供搜索服务。

Hadoop 实现了 Google 的 MapReduce 编程模型，提供了简单易用的

编程接口，也提供了它自己的分布式文件系统 HDFS,与 Google 不同的是，H

adoop 是开源的，任何人都可以使用这个框架来进行并行编程。如果说分布式

并行编程的难度足以让普通程序员望而生畏的话，开源的 Hadoop 的出现极大

的降低了它的门槛，读完本文，你会发现基于 Hadoop 编程非常简单，无须任

何并行开发经验，你也可以轻松的开发出分布式的并行程序，并让其令人难以置

信地同时运行在数百台机器上，然后在短时间内完成海量数据的计算。你可能会

觉得你不可能会拥有数百台机器来运行你的并行程序，而事实上，随着"云计算"

的普及，任何人都可以轻松获得这样的海量计算能力。例如现在 Amazon 公司

的云计算平台 Amazon EC2 已经提供了这种按需计算的租用服务，有兴趣的

读者可以去了解一下，这篇系列文章的第三部分将有所介绍。

掌握一点分布式并行编程的知识对将来的程序员是必不可少的，Hadoop

是如此的简便好用，何不尝试一下呢？也许你已经急不可耐的想试一下基于 Ha

doop 的编程是怎么回事了，但毕竟这种编程模型与传统的顺序程序大不相同，

掌握一点基础知识才能更好地理解基于 Hadoop 的分布式并行程序是如何编

写和运行的。因此本文会先介绍一下 MapReduce 的计算模型，Hadoop 中的

分布式文件系统 HDFS, Hadoop 是如何实现并行计算的，然后才介绍如何安

装和部署 Hadoop 框架，以及如何运行 Hadoop 程序。

MapReduce 计算模型

MapReduce 是 Google 公司的核心计算模型，它将复杂的运行于大规模

集群上的并行计算过程高度的抽象到了两个函数，Map 和 Reduce, 这是一个

令人惊讶的简单却又威力巨大的模型。适合用 MapReduce 来处理的数据集

(或任务)有一个基本要求: 待处理的数据集可以分解成许多小的数据集，而且每

一个小数据集都可以完全并行地进行处理。

中间结果 <单词，出现次数>, 而 Reduce 函数则可以对中间结果进行处理，

将相同单词的出现次数进行累加，得到每个单词的总的出现次数。

基于 MapReduce 计算模型编写分布式并行程序非常简单，程序员的主要

编码工作就是实现 Map 和 Reduce 函数，其它的并行编程中的种种复杂问

题，如分布式存储，工作调度，负载平衡，容错处理，网络通信等，均由 Map

Reduce 框架(比如 Hadoop )负责处理，程序员完全不用操心。

回页首

四集群上的并行计算

MapReduce 计算模型非常适合在大量计算机组成的大规模集群上并行运

行。图一中的每一个 Map 任务和每一个 Reduce 任务均可以同时运行于一个

单独的计算结点上，可想而知其运算效率是很高的，那么这样的并行计算是如何

做到的呢？

数据分布存储

Hadoop 中的分布式文件系统 HDFS 由一个管理结点 ( NameNode )

和N个数据结点 ( DataNode )组成，每个结点均是一台普通的计算机。在使用

上同我们熟悉的单机上的文件系统非常类似，一样可以建目录，创建，复制，删

除文件，查看文件内容等。但其底层实现上是把文件切割成 Block，然后这些

Block 分散地存储于不同的 DataNode 上，每个 Block 还可以复制数份存储

于不同的 DataNode 上，达到容错容灾之目的。NameNode 则是整个 HDF

S 的核心，它通过维护一些数据结构，记录了每一个文件被切割成了多少个 Bl

ock，这些 Block 可以从哪些 DataNode 中获得，各个 DataNode 的状态

等重要信息。如果你想了解更多的关于 HDFS 的信息，可进一步阅读参考资料：

The Hadoop Distributed File System:Architecture and Design

分布式并行计算

Hadoop 中有一个作为主控的 JobTracker，用于调度和管理其它的 Tas

kTra

本地计算

数据存储在哪一台计算机上，就由这台计算机进行这部分数据的计算，这样

可以

cker, JobTracker 可以运行于集群中任一台计算机上。TaskTracker 负

责执行任务，必须运行于 DataNode 上，即 DataNode 既是数据存储结点，

也是计算结点。 JobTracker 将 Map 任务和 Reduce 任务分发给空闲的 Ta

skTracker, 让这些任务并行运行，并负责监控任务的运行情况。如果某一个

TaskTracker 出故障了，JobTracker 会将其负责的任务转交给另一个空闲的

TaskTracker 重新运行。

减少数据在网络上的传输，降低对网络带宽的需求。在 Hadoop 这样的基

于集群的分布式并行系统中，计算结点可以很方便地扩充，而因它所能够提供的

计算能力近乎是无限的，但是由是数据需要在不同的计算机之间流动，故网络带

剩余38页未读，继续阅读

评论收藏

内容反馈

daishiju

2012-06-26

不错哦，入门级的部署和程序开发过程描述

fengyingcong1991

粉丝: 21
资源: 51

用 Hadoop 进行分布式并行编程

用_Hadoop_进行分布式并行编程

用 Hadoop 进行分布式并行编程, 第 1 部分.mht

用 Hadoop 进行分布式并行编程.pdf

Hadoop_进行分布式并行编程.doc

Hadoop与MapReduce分布式并行编程简介

MapReduce_新型的分布式并行计算编程模型_李成华.pdf

Hadoop分布式合集【精品】【免积分】

用-Hadoop-进行分布式数据处理

基于Hadoop的分布式并行增量爬虫技术研究

用Hadoop进行分布式数据处理，第3部分:应用程序开发

Fourinone分布式并行计算四合一框架

一种基于Hadoop架构的并行挖掘算法研究

论文研究-基于Hadoop平台的并行特征匹配算法研究.pdf

搜索引擎hadoop（搜索引擎hadoop）

搜索引擎Hadoop(搜索引擎Hadoop)

搜索引擎Hadoop （搜索引擎Hadoop）

厦门大学大数据技术原理与应用

基于Hadoop数据分析系统设计(需求分析).docx

教学大纲厦门大学-林子雨-大数据技术原理与应用

hadoop-0.20.0.tar

Qt 5实现串口调试助手 （源工程文件、0积分下载）

【SystemVerilog】路科验证V2学习笔记（全600页）.pdf

AutoSAR标准协议4.2.2

光伏-储能并网系统仿真.rar

NPPJSONViewer.zip

GD32替换STM32注意事项.pdf

最新资源

Qt 5实现串口调试助手（源工程文件、0积分下载）