没有合适的资源?快使用搜索试试~ 我知道了~
云计算-基于Hadoop的云计算应用研究.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 136 浏览量
2022-06-30
20:54:52
上传
评论
收藏 1.56MB PDF 举报
温馨提示
试读
69页
云计算-基于Hadoop的云计算应用研究.pdf
资源推荐
资源详情
资源评论
目录
IV
目 录
第一章 绪 论 .................................................................................................................. 1
1.1 研究背景 ............................................................................................................ 1
1.2 研究现状 ............................................................................................................ 3
1.3 本论文的主要工作 ............................................................................................ 5
1.4 本论文的结构安排 ............................................................................................ 6
第二章 云计算基础理论 ................................................................................................ 7
2.1 云计算概念 ........................................................................................................ 7
2.2 云计算的基本特征 ............................................................................................ 7
2.3 云计算的服务模式 ............................................................................................ 9
2.4 云计算的部署模式 .......................................................................................... 10
2.5 云计算的架构 ................................................................................................... 11
2.6 本章小结 .......................................................................................................... 12
第三章 Hadoop 基础理论 ............................................................................................ 13
3.1 Hadoop 平台系统 ............................................................................................ 13
3.1.1 Hadoop 子项目及框架 .......................................................................... 13
3.1.2 Hadoop 平台的发展 .............................................................................. 14
3.2 Hadoop 分布式文件系统 HDFS ..................................................................... 15
3.2.1 HDFS 的体系结构 ................................................................................. 16
3.2.2 HDFS 文件读写流程 ............................................................................. 17
3.2.3 HDFS 的可靠性措施 ............................................................................. 18
3.3 Hadoop 的 MapReduce 基础 ........................................................................... 20
3.3.1 MRv1 的实现框架 ................................................................................. 20
3.3.2 MRv2 的实现框架 ................................................................................. 22
3.3.3 MapReduce 的计算流程 ........................................................................ 24
3.4 本章小结 .......................................................................................................... 26
第四章 MapReduce 优化设计与实现 .......................................................................... 27
4.1 MapReduce 性能瓶颈分析 .............................................................................. 27
4.2 MPI 分析 .......................................................................................................... 28
4.3 优化方案介绍 .................................................................................................. 33
4.4 优化方案设计与实现 ...................................................................................... 35
目录
V
4.4.1 WordCount 事例分析 ............................................................................. 35
4.4.2 优化方案实现 ........................................................................................ 36
4.4.3 关键代码 ................................................................................................ 39
4.5 实验平台搭建与系统配置 .............................................................................. 40
4.6 实验结果分析 .................................................................................................. 42
4.7 本章小结 .......................................................................................................... 44
第五章 HDFS 优化设计与实现 ................................................................................... 46
5.1 HDFS 小文件性能瓶颈分析 ........................................................................... 46
5.2 现有小文件问题解决方案 .............................................................................. 47
5.3 优化方案介绍 .................................................................................................. 49
5.4 优化方案设计与实现 ...................................................................................... 50
5.4.1 元数据分析 ............................................................................................ 50
5.4.2 优化方案实现 ........................................................................................ 53
5.4.3 HadoopArchives 类实现 ........................................................................ 55
5.5 实验平台搭建与系统配置 .............................................................................. 56
5.6 实验结果分析 .................................................................................................. 56
5.7 本章小结 .......................................................................................................... 61
第六章 总结与展望 ...................................................................................................... 62
6.1 本文总结 .......................................................................................................... 62
6.2 下一步工作的展望 .......................................................................................... 63
致 谢 ............................................................................................................................ 64
参考文献 ........................................................................................................................ 65
攻硕期间取得的研究成果 ............................................................................................ 69
第一章 绪论
1
第一章 绪 论
随着互联网的快速发展,特别是近几年,移动互联网和电子商务发展的突飞
猛进,网络进入了一个崭新的时代。新互联网时代的包括以下几个特点:大数据
集、多终端接入、按需定制等。传统的数据处理模式已经无法满足几何级数发展
的数据处理要求,也不能满足当前用户的按需定制和网络应用开发的需要。为了
满足互联网的快速发展和不同用户的需求,行业各巨头纷纷推出了一种全新的计
算和服务模式:云计算。
1.1 研究背景
随着对云计算不断深入地应用,人们很自然地就对实现云计算的关键技术进
行研究。其实云计算是并行计算(Parallel Computing)、分布式计算(Distributed
Computing)和网格计算(Grid Computing)的进一步发展,或者可以说是这些技
术的商业实现
[1][2]
。在未来的几年里,云计算将深刻影响着整个信息产业的发展,
并将大大方便人类的工作娱乐和公司的运行方式
[3]
。云计算将计算、存储等资源共
享,即通过虚拟技术动态地按需提供来服务于广大用户。云计算具有动态可扩展
性,高可靠性和低成本等特点,这特点可以较好解决大数据时代所面临的各种复
杂问题。因此,云计算作为 Internet 发展的基石将无可非议。
全球最强的搜索引擎 Google 是最大的云计算技术的使用者,也是在业界处于
领跑者的地位。
2003 SOSP GFS(Google File System Google年, 大会上 ,
文件系统)这
个分布式存储系统的论文被发表,它缓解了海量数据存储的问题,受到业界极大
的关注;
2004 OSDI MapReduce年, 大会上发表了关于
分布式处理模型的论文,它注
重的是解决海量数据并行计算的问题;
2006 OSDI BigTable年, 大会上发表了
这个
分布式数据库的论文,它能存储海量结构化数据。这三篇顶级论文的发表为大家
揭开了 Google 搜索引擎等业务背后强大的技术神秘的面纱,而且效仿这三个技术
的开源产品喷泉似的不断地涌现,MapReduce 的开源产品有 Hadoop,GFS(Google
File System,Google 文 件 系 统 )的 开源产品有 HDFS,而
BigTable的开源
产品
Hbase Hypertable Cassandra、 和
等,这三篇论文和相关的开源技术为云计算的推广
起了极大的作用,培养了一个全球范围内很好的云计算研究环境。2007 年,Google
提出了“云计算”这一概念并开发了在线文档和电子邮件等一系列提供 SaaS 服务
的云计算产品,这也使得 Google 拥有目当数最大的云计算使用者。通过开发产品
过程中累计的技术,Google 打造了 Google App Engine 平台向外界提供 PaaS 服务。
电子科技大学硕士学位论文
2
Amazon 的电子商业业务覆盖全球,因此每日的访问量很大。如果遇到一些盛
大的节日比如西方的圣诞节,数据的访问量呈几何级增长。为了应对这种特殊时
期的业务需求,Amazon 必须采购很多的硬件基础设施,但在平时的访问量没那么
大时,这些硬件的维护会显得不经济。为了不让这些硬件基础设施在平时闲置,
Amazon 提出了一个和公众都互利互惠的商业模式,即向公众出租借这些硬件资
源,并计量收费,从 Amazon 方面看,这样既可以使平时闲置的硬件资源产生效益;
从用户方面看,他们也可以以一种廉价的途径获得这些硬件资源的使用权。在总
体上看,这种商业模式能有效减少硬件闲置,Amazon 推出
Amazon Web Service
的
最主要的原因这就在于此。在 2006 年初,Amazon 推出了
Amazon Web Service
的第
一款产品
S3 Simple Storage S( ervice
,简单存储服务),它提供了云存储服务
[4]
。在
2006年 8月,Amazon借助其强大的研究团队又推出了一款
Amazon Web Service
的
产品
EC2 Elastic Compute Cloud( ,
弹性计算云),它提供了云基础设施服务
[5]
,之后
还推出了包括 SimpleDB
[6]
、
Simple Queue Service
[7]
和
CloudFront
等近多种云计算
服务。人们在对云计算这种技术没有任何概念时,云计算相关的产品就已经得到
Amazon Web Service
很大的推动,并将其视为标志性云产品。
在云计算快速发展的浪潮中,信息产业的巨头 Microsoft 在 2008 年 10 月推出
了
Windows Azure Platform Azure。
被人们称为“蓝云”,它是构建在 Internet 基础上
的云计算平台,这是 Microsoft 继在操作系统产品中 DOS 系统升级到 Windows 这
一转变后的又一次颠覆性转型。微软 Azure 平台提供 IaaS 和 PaaS 云计算服务。另
外,Azure 仍可在离线状况下在本地环境中运行。在全世界 Windows 桌面和浏览
器的用户达到数亿之多,现在 Microsoft 将它们与“蓝天”连接起来,实现真正意
义上由个人 PC 到“蓝天”的延伸
[3][8]
。
VMware 利用自身在虚拟化技术的优势,在 2008 年与 EMC、思科等公司联合
推出 vCloud 计划,2009 年又推出了 vSphere 云操作系统。目前,VMware 提供了
包括云基础框架以及管理、云计算平台和终端用户计算服务等一系列云计算产品
和解决方案,涵盖了所有的服务类型,其中以服务类型 IaaS 为主
[8]
。
以上是国外行业内对云计算产业应用,我国同样在云计算领域的发展也十分
迅猛。其中,处于领跑者低位的中国移动和阿里巴巴已经提供实质性的云计算服
务。中国移动每天系统的数据量可达到 500TB,其在 2007 年启动了“大云”计划,
而阿里巴巴也专门成立了从事云计算业务的“阿里云”新公司。两者都涉及到了
IaaS、PaaS 和 SaaS 三类服务类型。在技术上,他们也都在开发云计算平台上时采
用了开源技术,如 Hadoop、Xen 等。
剩余68页未读,继续阅读
资源评论
programxh
- 粉丝: 17
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功