分布式并行编程(2).docx资源-CSDN文库

版权申诉

8 浏览量 2022-07-11 22:48:02 上传评论收藏 1.29MB DOCX 举报

分布式并行编程是一种应对大数据处理和计算挑战的技术，它允许程序在多台计算机上同时运行，以提高效率和处理能力。Hadoop 是一个关键的开源框架，专门设计用于支持这种编程模型。该框架基于 MapReduce 计算模型，使得程序员可以轻松编写处理大量数据的分布式程序。 MapReduce 是一种编程范式，由Google提出，它将大型计算任务分解为两个主要阶段：Map（映射）和 Reduce（归约）。在Map阶段，原始数据被分成多个部分，然后在不同的计算节点上并行处理。Reduce阶段则将Map阶段的结果整合，生成最终的输出。Hadoop通过这种方式，能够在大规模集群上高效处理PB级别的数据。 Hadoop 包含两个核心组件：Hadoop Distributed File System (HDFS) 和 MapReduce 框架。HDFS 是一个高容错性的分布式文件系统，它允许数据在集群中的多台机器上冗余存储，确保即使有节点故障，数据仍然可以访问。MapReduce则负责数据的并行处理。 Hadoop 的起源可以追溯到Nutch和Lucene这两个开源项目。Lucene是一个强大的全文搜索库，而Nutch是在Lucene基础上构建的开源搜索引擎，它包含了分布式文件系统和MapReduce算法。随着Nutch的发展，Doug Cutting将其中的分布式文件系统和MapReduce部分独立出来，创建了Hadoop。 Hadoop 在云计算领域扮演着重要角色。雅虎、Amazon、IBM等大公司都在其云计算平台中使用Hadoop。例如，雅虎的Pig项目是一个基于Hadoop的数据分析平台，Amazon的S3和EC2服务也依赖Hadoop提供大规模数据存储和计算能力。IBM的“蓝云计划”同样将Hadoop作为基础组件。随着多核处理器和互联网时代的到来，传统的单线程编程模式已无法满足性能需求。并发编程和分布式并行编程成为提升软件性能的关键。多核使得在同一台机器上可以执行多个线程，而分布式并行编程则利用网络中的多台计算机协同工作，提供近乎无限的计算资源。虽然这种编程方式带来了学习曲线的挑战，但它能有效解决大数据处理的问题，并在容错性和可扩展性方面表现出色。总结起来，Hadoop作为分布式并行编程的重要工具，通过MapReduce模型简化了处理大规模数据的任务。它在云计算领域广泛应用，推动了软件编程方式的转变，适应了多核和分布式计算的需求，为大数据时代的数据处理提供了强大支持。学习和掌握Hadoop及其相关技术，对于应对未来的计算挑战至关重要。

资源推荐

资源详情

资源评论

用 Hadoop 进行分布式并行编程, 第 1 部分

曹羽中 (mailto:caoyuz@cn.ibm.com?subject=用 Hadoop 进行分布式并行编程, 第 1 部分), 软件工程师, IBM 中国开发中心

2008 年 5 月 22 日

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架，借助于 Hadoop, 程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数

据的计算。本文将介绍 MapReduce 计算模型，分布式并行计算等基本概念，以及 Hadoop 的安装部署和基本运行方法。

Hadoop 简介

Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架，由于分布式存储对于分布式编程来说是必不可少的，这个框架中还包含了一个分布式文件系统

HDFS( Hadoop Distributed File System )。也许到目前为止，Hadoop 还不是那么广为人知，其最新的版本号也仅仅是 0.16，距离 1.0 似乎都还有很长的一段距离，但

提及 Hadoop 一脉相承的另外两个开源项目 Nutch 和 Lucene ( 三者的创始人都是 Doug Cutting ),那绝对是大名鼎鼎。Lucene 是一个用 Java 开发的开源高性能全文

检索工具包，它不是一个完整的应用程序，而是一套简单易用的 API 。在全世界范围内，已有无数的软件系统， Web 网站基于 Lucene 实现了全文检索功能，后来 Doug

Cutting 又开创了第一个开源的 Web 搜索引擎(http://www.nutch.org/) Nutch, 它在 Lucene 的基础上增加了网络爬虫和一些和 Web 相关的功能，一些解析各类文档

格式的插件等，此外，Nutch 中还包含了一个分布式文件系统用于存储数据。从 Nutch 0.8.0 版本之后，Doug Cutting 把 Nutch 中的分布式文件系统以及实现 MapReduce

算法的代码独立出来形成了一个新的开源项 Hadoop。Nutch 也演化为基于 Lucene 全文检索以及 Hadoop 分布式计算平台的一个开源搜索引擎。

基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序，并将其运行于由成百上千个结点组成的大规模计算机集群上。从目前的情况来看，Hadoop 注定会有一个

辉煌的未来："云计算"是目前灸手可热的技术名词，全球各大 IT 公司都在投资和推广这种新一代的计算模式，而 Hadoop 又被其中几家主要的公司用作其"云计算"环境中的

重要基础软件，如:雅虎正在借助 Hadoop 开源平台的力量对抗 Google, 除了资助 Hadoop 开发团队外，还在开发基于 Hadoop 的开源项目 Pig, 这是一个专注于海量数

据集分析的分布式计算程序。Amazon 公司基于 Hadoop 推出了 Amazon S3 ( Amazon Simple Storage Service )，提供可靠，快速，可扩展的网络存储服务，以及一

个商用的云计算平台 Amazon EC2 ( Amazon Elastic Compute Cloud ) 。在 IBM 公司的云计算项目--"蓝云计划"中，Hadoop 也是其中重要的基础软件。Google 正在

跟 IBM 合作，共同推广基于 Hadoop 的云计算。

迎接编程方式的变革

在摩尔定律的作用下，以前程序员根本不用考虑计算机的性能会跟不上软件的发展，因为约每隔 18 个月，CPU 的主频就会增加一倍，性能也将提升一倍，软件根本不用做任

何改变，就可以享受免费的性能提升。然而，由于晶体管电路已经逐渐接近其物理上的性能极限，摩尔定律在 2005 年左右开始失效了，人类再也不能期待单个 CPU 的速度

每隔 18 个月就翻一倍，为我们提供越来越快的计算性能。Intel, AMD, IBM 等芯片厂商开始从多核这个角度来挖掘 CPU 的性能潜力，多核时代以及互联网时代的到来，将

使软件编程方式发生重大变革，基于多核的多线程并发编程以及基于大规模计算机集群的分布式并行编程是将来软件性能提升的主要途径。

许多人认为这种编程方式的重大变化将带来一次软件的并发危机，因为我们传统的软件方式基本上是单指令单数据流的顺序执行，这种顺序执行十分符合人类的思考习惯，却与

并发并行编程格格不入。基于集群的分布式并行编程能够让软件与数据同时运行在连成一个网络的许多台计算机上,这里的每一台计算机均可以是一台普通的 PC 机。这样的分

布式并行环境的最大优点是可以很容易的通过增加计算机来扩充新的计算结点，并由此获得不可思议的海量计算能力, 同时又具有相当强的容错能力，一批计算结点失效也不会

影响计算的正常进行以及结果的正确性。 Google 就是这么做的，他们使用了叫做 MapReduce 的并行编程模型进行分布式并行编程，运行在叫做 GFS ( Google File

System )的分布式文件系统上，为全球亿万用户提供搜索服务。

Hadoop 实现了 Google 的 MapReduce 编程模型，提供了简单易用的编程接口，也提供了它自己的分布式文件系统 HDFS,与 Google 不同的是，Hadoop 是开源的，任

何人都可以使用这个框架来进行并行编程。如果说分布式并行编程的难度足以让普通程序员望而生畏的话，开源的 Hadoop 的出现极大的降低了它的门槛，读完本文，你会发

现基于 Hadoop 编程非常简单，无须任何并行开发经验，你也可以轻松的开发出分布式的并行程序，并让其令人难以置信地同时运行在数百台机器上，然后在短时间内完成海

量数据的计算。你可能会觉得你不可能会拥有数百台机器来运行你的并行程序，而事实上，随着"云计算"的普及，任何人都可以轻松获得这样的海量计算能力。例如现在 Amazon

公司的云计算平台 Amazon EC2 已经提供了这种按需计算的租用服务，有兴趣的读者可以去了解一下，这篇系列文章的第三部分将有所介绍。

掌握一点分布式并行编程的知识对将来的程序员是必不可少的，Hadoop 是如此的简便好用，何不尝试一下呢？也许你已经急不可耐的想试一下基于 Hadoop 的编程是怎么回

事了，但毕竟这种编程模型与传统的顺序程序大不相同，掌握一点基础知识才能更好地理解基于

Hadoop 的分布式并行程序是如何编写和运行的。因此本文会先介绍一下

MapReduce 的计算模型，Hadoop 中的分布式文件系统 HDFS, Hadoop 是如何实现并行计算的，然后才介绍如何安装和部署 Hadoop 框架，以及如何运行 Hadoop 程

序。

MapReduce

计算模型

MapReduce 是 Google 公司的核心计算模型，它将复杂的运行于大规模集群上的并行计算过程高度的抽象到了两个函数， Map 和 Reduce, 这是一个令人惊讶的简单却又

威力巨大的模型。适合用 MapReduce 来处理的数据集(或任务)有一个基本要求: 待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处

理。

以一个计算文本文件中每个单词出现的次数的程序为例，<k1,v1> 可以是 <行在文件中的偏移位置, 文件中的一行>，经 Map 函数映射之后，形成一批中间结果 <单词，

出现次数>, 而 Reduce 函数则可以对中间结果进行处理，将相同单词的出现次数进行累加，得到每个单词的总的出现次数。

基于 MapReduce 计算模型编写分布式并行程序非常简单，程序员的主要编码工作就是实现 Map 和 Reduce 函数，其它的并行编程中的种种复杂问题，如分布式存储，工

作调度，负载平衡，容错处理，网络通信等，均由 MapReduce 框架(比如 Hadoop )负责处理，程序员完全不用操心。

四集群上的并行计算

MapReduce 计算模型非常适合在大量计算机组成的大规模集群上并行运行。图一中的每一个 Map 任务和每一个 Reduce 任务均可以同时运行于一个单独的计算结点上，可

想而知其运算效率是很高的，那么这样的并行计算是如何做到的呢？

数据分布存储

Hadoop 中的分布式文件系统 HDFS 由一个管理结点 ( NameNode )和 N 个数据结点 ( DataNode )组成，每个结点均是一台普通的计算机。在使用上同我们熟悉的单机上

的文件系统非常类似，一样可以建目录，创建，复制，删除文件，查看文件内容等。但其底层实现上是把文件切割成Block，然后这些 Block 分散地存储于不同的 DataNode

上，每个 Block 还可以复制数份存储于不同的 DataNode 上，达到容错容灾之目的。NameNode 则是整个 HDFS 的核心，它通过维护一些数据结构，记录了每一个文件

被切割成了多少个 Block，这些 Block 可以从哪些 DataNode 中获得，各个 DataNode 的状态等重要信息。如果你想了解更多的关于 HDFS 的信息，可进一步阅读参考

资料： The Hadoop Distributed File System:Architecture and Design

分布式并行计算

Hadoop 中有一个作为主控的 JobTracker，用于调度和管理其它的 TaskTracker, JobTracker 可以运行于集群中任一台计算机上。TaskTracker 负责执行任务，必须运行

于 DataNode 上，即 DataNode 既是数据存储结点，也是计算结点。 JobTracker 将 Map 任务和 Reduce 任务分发给空闲的 TaskTracker, 让这些任务并行运行，并负

责监控任务的运行情况。如果某一个 TaskTracker 出故障了，JobTracker 会将其负责的任务转交给另一个空闲的 TaskTracker 重新运行。

本地计算

数据存储在哪一台计算机上，就由这台计算机进行这部分数据的计算，这样可以减少数据在网络上的传输，降低对网络带宽的需求。在 Hadoop 这样的基于集群的分布式并行

系统中，计算结点可以很方便地扩充，而因它所能够提供的计算能力近乎是无限的，但是由是数据需要在不同的计算机之间流动，故网络带宽变成了瓶颈，是非常宝贵的， “本

地计算”是最有效的一种节约网络带宽的手段，业界把这形容为“移动计算比移动数据更经济”。

剩余40页未读，继续阅读

评论收藏

内容反馈

版权申诉

xxpr_ybgg

粉丝: 6789
资源: 3万+

分布式并行编程 (2).docx

最新资源

分布式并行编程 (2).docx

分布式并行编程.docx

分布式并行编程 (2).pdf

OMP并行编程实验二报告.docx

Hadoop_进行分布式并行编程.doc

分布式并行编程.pdf

分布式实验报告Socket.docx

基于多核的并行编程模型.docx

分布式计算课程报告.docx

基于Hadoop分布式爬虫设计综述.docx

浅谈分布式存储与计算.docx

异构计算并行编程模型综述.docx

用 Hadoop 进行分布式并行编程.pdf

C++并行与分布式编程英文版

并行编程中的设计模式.docx

MPI编程(分布式并行编程)

Kafka是一个分布式消息队列系统.docx

Hadoop-海量文件的分布式计算处理方案.docx

XGBoost是一种优化的分布式梯度增强库.docx

基于Hadoop的分布式并行增量爬虫技术研究.docx

MATLAB并行计算与分布式处理技术.docx

用 Hadoop 进行分布式并行编程

用_Hadoop_进行分布式并行编程

PDV:CTU的并行和分布式编程课程

分布并行计算技术.docx

并发编程笔记20190526.docx

Python技术的大数据处理与分布式计算方法.docx

矩阵乘法MPI并行程序报告.docx

Matlab技术并发编程指南.docx

最新资源