云计算-基于Hadoop的MapReduce计算模型优化与应用研究.pdf资源-CSDN文库

需积分: 10 90 浏览量 2022-06-30 20:42:39 上传评论收藏 1.71MB PDF 举报

资源详情

资源评论

资源推荐

摘要

随着互联网的迅速发展，特别是近年来，突飞猛进的移动互联网和电子商务

的发展，网络已经进入了互联网+时代。“互联网+”时代具有如下特点：大规模

数据集，多终端等。企业建立一套 IT 系统不仅需要购买硬件等基础设施，还需要

专人维护。当企业的规模扩大时还要继续升级各种软硬件设施以满足需要，传统

数据处理方法存在数据存储成本过高、数据管理效率低、可靠性较低、并行处理

程序编写复杂等不足。尤其是对于中小企业，计算机等硬件和软件本身并非所需，

提高计算和存储效率才是其真正的期盼。

云计算通过整合服务器集群中的闲散资源，为大数据分布式存储、并行计算

等提供了一个有效解决方案。Hadoop 以其开源、可伸缩与低成本等优势，已成为

一种主流的云计算平台。但是，在某些应用场景，Hadoop 也存在一定的缺陷。例

如 MapReduce 的 Mapper 会产生大量中间结果，而这时的 Reducer 并没有被调用

来合并这些中间结果，增加了网络传输大量中间结果的负担以及造成 Reducer 的

闲置，总体上降低了 MapReduce 的效率。

本文通过对 MapReduce 计算模型的工作原理、运行机制和容错机制的研究，

提出了一种 MapReduce 计算模型优化方案。即在 Yarn 框架中，使用 MPI 技术实

现 Reducer 与 Mapper 并行处理中间结果。通过实验可知，本方法提升了 MapReduce

计算效率，降低了计算与存储的耦合性。另外，通过应用实例——重点污染物排

放量测算系统，在不改变该系统的基础上，利用 Sqoop 数据迁移技术，结合优化

后的 MapReduce 计算模型和存储技术的优点，设计并实现了一种关系型数据库和

分布式数据库并存的方案，以期解决关系数据库的存储和访问效率等问题，在实

现存储和计算分离的同时降低了中小企业的硬件开支。

关键词：云计算；Hadoop；MapReduce；HDFS；HBase

万方数据

Abstract

With the rapid development of the Internet, especially in recent years, the rapid

development of mobile Internet and e-commerce, the network has entered a new era. The

new age of the Internet has the following characteristics: large-scale data sets,

multi-terminal platforms. Enterprises to establish an IT system not only need to purchase

hardware and other infrastructure, but also need someone to maintain. When the size of

the business will continue to expand the hardware and software upgrade facilities to meet

the needs of traditional data processing method has high cost of data storage, data

management and low efficiency. Especially for small and medium enterprises, and

computer hardware and software just to improve computing and storage efficiency tool.

Hadoop cloud computing as an inherited many excellent characteristics of cloud

computing. Coupled with its subprojects MapReduce and HDFS open source, scalable

and other characteristics, has become a popular cloud computing development platform.

But there are some flaws in some scenarios shortcomings. For example MapReduce

Mapper will generate a lot of results, but this time the Reducer is not called to merge

these intermediate results, increasing the burden on the intermediate results of a large

number of network transmission and cause Reducer idle, reducing the efficiency of

MapReduce.

Through research and analysis works MapReduce computation model, operation

mechanism and fault tolerance mechanisms proposed optimization. In Yarn framework,

the use of MPI technology enables Reducer Mapper runs in parallel with the processing

of intermediate results. Through experimental analysis group to enhance the MapReduce

computational efficiency, reduce the coupling between computation and storage. In

addition, without changing the basic business focus pollutant emissions calculation

system based on the use Sqoop data migration technology, combined with the advantages

of the optimized MapReduce computation model and storage technologies, to design a

relational database and distributed database solutions exist, solve the storage and access

efficiency relational database issues for storage and computing separation while reducing

the cost of development of SMEs.

Keywords: Cloud Computing; MapReduce; HDFS; HBase

万方数据

III

摘要 ................................................................. I

Abstract ............................................................... II

目录 ............................................................... III

第一章绪论 ........................................................... 1

1.1 研究背景与意义 ................................................... 1

1.2 研究现状 ......................................................... 2

1.3 本论文的主要工作 ................................................. 3

1.4 论文结构安排 ..................................................... 4

第二章 Hadoop 基础框架 ................................................. 5

2.1 Hadoop 框架 ...................................................... 5

2.2 Hadoop 集群运作原理 .............................................. 5

2.3 MapReduce 计算框架 ............................................... 6

2.3.1 MapReduce 作业运行流程 ....................................... 6

2.3.2 MapReduce 计算流程 ........................................... 8

2.3.3 MapReduce 按键分组和容错机制 ................................. 9

2.4 HDFS 分布式文件系统 ............................................. 9

2.4.1 HDFS 架构 .................................................... 9

2.4.2 HDFS 文件读写流程 ........................................... 10

2.4.3 HDFS 可靠性措施 ............................................. 12

2.5 本章小结 ........................................................ 13

第三章 MapReduce 优化设计与实现 ...................................... 14

3.1 MapReduce 性能瓶颈 .............................................. 14

3.2 MPI 并行技术 .................................................... 15

3.2.1 并行编程模型 ................................................. 15

3.2.2 集群算法设计 ................................................. 16

3.2.3 MPI 点对点通信 .............................................. 17

3.3 优化方案设计 .................................................... 18

3.3.1 Yarn 框架 .................................................... 18

3.3.2 方案设计 ..................................................... 19

3.3.3 方案实现过程 ................................................. 20

3.3.4 词频统计算法 ................................................. 22

3.4 分布式环境部署 .................................................. 23

万方数据

3.4.1 硬件环境部署 ................................................. 23

3.4.2 软件环境部署 ................................................. 24

3.5 实验结果与分析 .................................................. 26

3.6 本章小结 ........................................................ 28

第四章 MapReduce 优化模型的应用 ...................................... 29

4.1 平台架构设计 .................................................... 29

4.1.1 单点架构解决方案 ............................................ 29

4.1.2 分布式计算解决方案 .......................................... 30

4.2 总体方案 ........................................................ 30

4.2.1 硬件体系结构 ................................................. 30

4.2.2 软件体系结构 ................................................. 31

4.3 数据计算原理 .................................................... 31

4.3.1 监测数据法 ................................................... 31

4.3.2 产排污系数法 ................................................. 32

4.4 系统设计与实现 .................................................. 33

4.4.1 Sqoop 数据传输方案 ........................................... 33

4.4.2 基于 HBase 的监测数据视图设计 ................................ 33

4.4.3 性能测试与分析............................................... 34

4.4.4 系统功能模块架构 ............................................ 37

4.4.5 主要功能模块用途 ............................................ 37

4.4.6 系统实现 ..................................................... 38

4.5 本章小结 ........................................................ 40

第五章结论与展望 .................................................... 41

5.1 总结 ............................................................ 41

5.2 展望 ............................................................ 41

致谢 ................................................................ 43

参考文献 ............................................................. 44

附录 1 攻读硕士学位期间发表的论文 ..................................... 48

万方数据

武汉科技大学硕士学位论文

第一章绪论

1.1 研究背景与意义

“互联网+”时代以用户需求为基础平台，辐射通讯、金融、交通等传统行业，

利用信息技术，将产业服务互联网化，实现由人与人的连接转变为人与设备，人与

服务的连接是未来的趋势。云计算

[1]

为大数据分布式存储、并行计算、高度集中应

用和大数据实时备份等问题提供了一个有效方案，为用户提供了近乎无限的计算能

力和存储能力。它自诞生就拥有了高可用性、高效性、高伸缩性和成本低廉的特性，

是实现产业互联网化的重要技术支撑。

Hadoop 作为云计算的一个实现，继承了云计算的诸多优良特性。再加上其自有

的开源、可扩展等特性，越来越被各 IT 巨头作为其云计算环境的重要基础软件

[2]

。

国外有雅虎的云计算系统、IBM 的蓝云项目、亚马逊的 EC2（Elastic Compute Cloud）

和 S3（Simple Storage Service）等等。目前，国内对云计算的应用研究也取得了一

定进展。腾讯、阿里、百度等企业都采用 Hadoop 作为基础框架部署了自己的云计

算中心，比如“阿里云”和“腾讯云”等。为企业提供安全可靠的“云服务”，节

省了应用开发成本。

MapReduce 是 Hadoop 平台的分布式计算框架。它根据分布式集群中的计算机

节点的数量，对将要执行的计算任务进行合理的分配，然后在计算机上并行处理，

大大提高了大规模数据处理效率。在某些应用场景 MapReduce 也存在一定的缺陷。

例如 MapReduce 的 Mapper 会产生大量中间结果，而这时的 Reducer 并没有被调用

来合并这些中间结果，增加了网络传输大量中间结果的负担并造成 Reducer 的闲置，

总体上降低了 MapReduce 的效率。

另外，为满足企业日益扩大的发展规模和激增的数据量，企业在增加硬件设备

的同时，必须相应配备大量人力进行系统维护工作。在进行大规模数据计算任务时

原有的企业网络信息系统等解决方案存在缺陷。增加软硬件只是企业实际运作中应

对计算和存储问题的措施，不能从根本上解决问题。在这样的背景下，利用云计算

技术，对 MapReduce 计算模型进行性能分析和优化，并设计一种关系型数据库与分

布式数据库结合的企业开发方案，可以解决分布式数据计算时的数据分割、任务分

配以及存储效率问题，对解决关系型数据库存储和访问效率，实现计算和存储分离，

使企业有效应对数据规模大等实际应用需求变化有着重要意义。

万方数据

剩余48页未读，继续阅读

评论收藏

内容反馈

programxh

粉丝: 17
资源: 1万+

云计算-基于Hadoop的MapReduce计算模型优化与应用研究.pdf

评论0

最新资源

云计算-基于Hadoop的MapReduce计算模型优化与应用研究.pdf

评论0

论文研究-云计算环境下混合协同过滤优化技术研究.pdf

MapReduce_新型的分布式并行计算编程模型_李成华.pdf

论文研究-基于动态等待时间阈值的延迟调度算法.pdf

大数据开源框架集锦.pdf

大数据概述——精选推荐.pdf

大数据技术-题库.pdf

我对大数据的看法.pdf

大数据期末知识点总结.pdf

数据分析方法与技术.pptx

大数据分析一体机.pptx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

斯坦福大学：2024年人工智能（AI）指数报告

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

2023泛娱乐社交出海手册-ZEGO即构科技

4个亲测好用的ChatGPT4渠道

chrome-win64.zip

vb企业考勤管理系统(论文+源代码+开题报告+答辩PPT).rar

asp.net考勤管理系统设计(源代码+论文).rar

北森能力测评题库.zip

学术海报模板+论文科研+研究生

认知智能技术与产业研究报告2023

车载毫米波雷达DOA估计综述博文仿真代码

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

几个可以免费使用ChatGPT4的网站.zip

249个 ChatGPT 关键词汇总 中文版

最新资源

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

249个 ChatGPT 关键词汇总中文版