没有合适的资源?快使用搜索试试~ 我知道了~
云计算-基于Hadoop的MapReduce计算模型优化与应用研究.pdf
需积分: 10 1 下载量 90 浏览量
2022-06-30
20:42:39
上传
评论
收藏 1.71MB PDF 举报
温馨提示
试读
49页
云计算-基于Hadoop的MapReduce计算模型优化与应用研究.pdf
资源详情
资源评论
资源推荐
I
摘 要
随着互联网的迅速发展,特别是近年来,突飞猛进的移动互联网和电子商务
的发展,网络已经进入了互联网+时代。“互联网+”时代具有如下特点:大规模
数据集,多终端等。企业建立一套 IT 系统不仅需要购买硬件等基础设施,还需要
专人维护。当企业的规模扩大时还要继续升级各种软硬件设施以满足需要,传统
数据处理方法存在数据存储成本过高、数据管理效率低、可靠性较低、并行处理
程序编写复杂等不足。尤其是对于中小企业,计算机等硬件和软件本身并非所需,
提高计算和存储效率才是其真正的期盼。
云计算通过整合服务器集群中的闲散资源,为大数据分布式存储、并行计算
等提供了一个有效解决方案。Hadoop 以其开源、可伸缩与低成本等优势,已成为
一种主流的云计算平台。但是,在某些应用场景,Hadoop 也存在一定的缺陷。例
如 MapReduce 的 Mapper 会产生大量中间结果,而这时的 Reducer 并没有被调用
来合并这些中间结果,增加了网络传输大量中间结果的负担以及造成 Reducer 的
闲置,总体上降低了 MapReduce 的效率。
本文通过对 MapReduce 计算模型的工作原理、运行机制和容错机制的研究,
提出了一种 MapReduce 计算模型优化方案。即在 Yarn 框架中,使用 MPI 技术实
现 Reducer 与 Mapper 并行处理中间结果。通过实验可知,本方法提升了 MapReduce
计算效率,降低了计算与存储的耦合性。另外,通过应用实例——重点污染物排
放量测算系统,在不改变该系统的基础上,利用 Sqoop 数据迁移技术,结合优化
后的 MapReduce 计算模型和存储技术的优点,设计并实现了一种关系型数据库和
分布式数据库并存的方案,以期解决关系数据库的存储和访问效率等问题,在实
现存储和计算分离的同时降低了中小企业的硬件开支。
关键词:云计算;Hadoop;MapReduce;HDFS;HBase
万方数据
II
Abstract
With the rapid development of the Internet, especially in recent years, the rapid
development of mobile Internet and e-commerce, the network has entered a new era. The
new age of the Internet has the following characteristics: large-scale data sets,
multi-terminal platforms. Enterprises to establish an IT system not only need to purchase
hardware and other infrastructure, but also need someone to maintain. When the size of
the business will continue to expand the hardware and software upgrade facilities to meet
the needs of traditional data processing method has high cost of data storage, data
management and low efficiency. Especially for small and medium enterprises, and
computer hardware and software just to improve computing and storage efficiency tool.
Hadoop cloud computing as an inherited many excellent characteristics of cloud
computing. Coupled with its subprojects MapReduce and HDFS open source, scalable
and other characteristics, has become a popular cloud computing development platform.
But there are some flaws in some scenarios shortcomings. For example MapReduce
Mapper will generate a lot of results, but this time the Reducer is not called to merge
these intermediate results, increasing the burden on the intermediate results of a large
number of network transmission and cause Reducer idle, reducing the efficiency of
MapReduce.
Through research and analysis works MapReduce computation model, operation
mechanism and fault tolerance mechanisms proposed optimization. In Yarn framework,
the use of MPI technology enables Reducer Mapper runs in parallel with the processing
of intermediate results. Through experimental analysis group to enhance the MapReduce
computational efficiency, reduce the coupling between computation and storage. In
addition, without changing the basic business focus pollutant emissions calculation
system based on the use Sqoop data migration technology, combined with the advantages
of the optimized MapReduce computation model and storage technologies, to design a
relational database and distributed database solutions exist, solve the storage and access
efficiency relational database issues for storage and computing separation while reducing
the cost of development of SMEs.
Keywords: Cloud Computing; MapReduce; HDFS; HBase
万方数据
III
目 录
摘 要 ................................................................. I
Abstract ............................................................... II
目 录 ............................................................... III
第一章 绪论 ........................................................... 1
1.1 研究背景与意义 ................................................... 1
1.2 研究现状 ......................................................... 2
1.3 本论文的主要工作 ................................................. 3
1.4 论文结构安排 ..................................................... 4
第二章 Hadoop 基础框架 ................................................. 5
2.1 Hadoop 框架 ...................................................... 5
2.2 Hadoop 集群运作原理 .............................................. 5
2.3 MapReduce 计算框架 ............................................... 6
2.3.1 MapReduce 作业运行流程 ....................................... 6
2.3.2 MapReduce 计算流程 ........................................... 8
2.3.3 MapReduce 按键分组和容错机制 ................................. 9
2.4 HDFS 分布式文件系统 ............................................. 9
2.4.1 HDFS 架构 .................................................... 9
2.4.2 HDFS 文件读写流程 ........................................... 10
2.4.3 HDFS 可靠性措施 ............................................. 12
2.5 本章小结 ........................................................ 13
第三章 MapReduce 优化设计与实现 ...................................... 14
3.1 MapReduce 性能瓶颈 .............................................. 14
3.2 MPI 并行技术 .................................................... 15
3.2.1 并行编程模型 ................................................. 15
3.2.2 集群算法设计 ................................................. 16
3.2.3 MPI 点对点通信 .............................................. 17
3.3 优化方案设计 .................................................... 18
3.3.1 Yarn 框架 .................................................... 18
3.3.2 方案设计 ..................................................... 19
3.3.3 方案实现过程 ................................................. 20
3.3.4 词频统计算法 ................................................. 22
3.4 分布式环境部署 .................................................. 23
万方数据
IV
3.4.1 硬件环境部署 ................................................. 23
3.4.2 软件环境部署 ................................................. 24
3.5 实验结果与分析 .................................................. 26
3.6 本章小结 ........................................................ 28
第四章 MapReduce 优化模型的应用 ...................................... 29
4.1 平台架构设计 .................................................... 29
4.1.1 单点架构解决方案 ............................................ 29
4.1.2 分布式计算解决方案 .......................................... 30
4.2 总体方案 ........................................................ 30
4.2.1 硬件体系结构 ................................................. 30
4.2.2 软件体系结构 ................................................. 31
4.3 数据计算原理 .................................................... 31
4.3.1 监测数据法 ................................................... 31
4.3.2 产排污系数法 ................................................. 32
4.4 系统设计与实现 .................................................. 33
4.4.1 Sqoop 数据传输方案 ........................................... 33
4.4.2 基于 HBase 的监测数据视图设计 ................................ 33
4.4.3 性能测试与分析............................................... 34
4.4.4 系统功能模块架构 ............................................ 37
4.4.5 主要功能模块用途 ............................................ 37
4.4.6 系统实现 ..................................................... 38
4.5 本章小结 ........................................................ 40
第五章 结论与展望 .................................................... 41
5.1 总结 ............................................................ 41
5.2 展望 ............................................................ 41
致 谢 ................................................................ 43
参考文献 ............................................................. 44
附录 1 攻读硕士学位期间发表的论文 ..................................... 48
万方数据
武汉科技大学硕士学位论文
1
第一章 绪论
1.1 研究背景与意义
“互联网+”时代以用户需求为基础平台,辐射通讯、金融、交通等传统行业,
利用信息技术,将产业服务互联网化,实现由人与人的连接转变为人与设备,人与
服务的连接是未来的趋势。云计算
[1]
为大数据分布式存储、并行计算、高度集中应
用和大数据实时备份等问题提供了一个有效方案,为用户提供了近乎无限的计算能
力和存储能力。它自诞生就拥有了高可用性、高效性、高伸缩性和成本低廉的特性,
是实现产业互联网化的重要技术支撑。
Hadoop 作为云计算的一个实现,继承了云计算的诸多优良特性。再加上其自有
的开源、可扩展等特性,越来越被各 IT 巨头作为其云计算环境的重要基础软件
[2]
。
国外有雅虎的云计算系统、IBM 的蓝云项目、亚马逊的 EC2(Elastic Compute Cloud)
和 S3(Simple Storage Service)等等。目前,国内对云计算的应用研究也取得了一
定进展。腾讯、阿里、百度等企业都采用 Hadoop 作为基础框架部署了自己的云计
算中心,比如“阿里云”和“腾讯云”等。为企业提供安全可靠的“云服务”,节
省了应用开发成本。
MapReduce 是 Hadoop 平台的分布式计算框架。它根据分布式集群中的计算机
节点的数量,对将要执行的计算任务进行合理的分配,然后在计算机上并行处理,
大大提高了大规模数据处理效率。在某些应用场景 MapReduce 也存在一定的缺陷。
例如 MapReduce 的 Mapper 会产生大量中间结果,而这时的 Reducer 并没有被调用
来合并这些中间结果,增加了网络传输大量中间结果的负担并造成 Reducer 的闲置,
总体上降低了 MapReduce 的效率。
另外,为满足企业日益扩大的发展规模和激增的数据量,企业在增加硬件设备
的同时,必须相应配备大量人力进行系统维护工作。在进行大规模数据计算任务时
原有的企业网络信息系统等解决方案存在缺陷。增加软硬件只是企业实际运作中应
对计算和存储问题的措施,不能从根本上解决问题。在这样的背景下,利用云计算
技术,对 MapReduce 计算模型进行性能分析和优化,并设计一种关系型数据库与分
布式数据库结合的企业开发方案,可以解决分布式数据计算时的数据分割、任务分
配以及存储效率问题,对解决关系型数据库存储和访问效率,实现计算和存储分离,
使企业有效应对数据规模大等实际应用需求变化有着重要意义。
万方数据
剩余48页未读,继续阅读
programxh
- 粉丝: 17
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于python实现的三次样条插值和均值插值法实现
- Python语言教程2-python批量图片大小处理-多文件夹
- Python语言教程1-python批量图片重命名,将后缀某几个不想要的字去除
- Space Combat Kit 太空战斗套件Unity游戏开发插件资源unitypackage C#
- Universal Device Preview 通用设备预览Unity游戏开发插件资源unitypackage
- Paladin Anim Set 圣骑士动画集Unity游戏动作动画插件资源unitypackage
- 计算机财务管理期末考报表部分题目及答案.doc
- 计算机软件维护论文.doc
- 计算机软件著作权授权书.docx
- 计算机键盘教学案例.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0