没有合适的资源?快使用搜索试试~ 我知道了~
基于Hadoop的研究及性能分析.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 74 浏览量
2022-07-07
03:35:16
上传
评论 1
收藏 932KB PDF 举报
温馨提示
试读
17页
基于Hadoop的研究及性能分析.pdf基于Hadoop的研究及性能分析.pdf基于Hadoop的研究及性能分析.pdf基于Hadoop的研究及性能分析.pdf基于Hadoop的研究及性能分析.pdf基于Hadoop的研究及性能分析.pdf基于Hadoop的研究及性能分析.pdf基于Hadoop的研究及性能分析.pdf基于Hadoop的研究及性能分析.pdf
资源推荐
资源详情
资源评论
. . .. . .
基于 Hadoop 的研究及性能分析
摘要
在大数据到来的今天,本文首先介绍了 Hadoop 及其核心技
术 MapReduce 的工作原理。详细讨论了 Hadoop 推测执行算法
和 SALS 推测执行算法并对它们的性能进行分析。最后,分析了
MapReduce 框架的通用二路连接算法 RSJ。为了提高性能,提出
了一种基于 DistributedCache 的改进算法,通过减少 mapper 输
出的数据来达到优化的目的。
关键字:
Hadoop MapReduce 性能 算法
.. .专业 . .
. . .. . .
Abstract:
In the era of big data, this paper introduces
Hadoop, MapReduce and its core technology works.I have
discussed the Hadoop speculative execution algorithms and
SALS speculative execution algorithm and analyzed their
performance.Finally, I analyzed the Common Road Join
Algorithm in MapReduce framework.To improve
performance, I propose an improved algorithm based
DistributedCache by reducing the mapper output data to
achieve optimization purposes.
Key words:
Hadoop; MapReduce; Performance; Algorithm
.. .专业 . .
. . .. . .
1、绪论
1.1、背景
伴随 Internet 和 Web 技术的飞速发展,网络日志、互联网搜索
索引、电子商、社交等技术的广泛使用带来了数据量的急剧增长。
计算机技术在各行各业的普遍使用也促使的数据的产生,如用于测量
和传输有关位置、震动、湿度、温度的传感器所产生的海量数据。
大数据时代真的来了吗?据[1]中统计显示所有企业每天的信息存储
量高达 2.2ZB,其型企业平均每天产生的信息量达 10WTB,而中小
企业平均每天产生 563TB 的数据量。预计明年大型企业产生的数据
量将增长 67%,中小企业数据量的增长则高达 178%。因此,在
2012 年年末,中国工程院院士邬贺铨指出:“在过去短短的 18 个
月,中国移动互联网流量增加了 10 倍,占全球互联网流量的
10%,成为名副其实的世界数据中心。因此,中国已经步入了“大
数据”时代。
大数据主要有四个典型特征:
(1)海量:目前各行各业面临着数据量的大规模增长。例
如,IDC 最近的报告预测称,到 2020 年,全球数据量将扩大 50 倍
之多。
(2)多样性:数据不单单以结构化数据形式存在。目前,半
结构化数据和非结构化数据也已经占了数据总数相当大的一部分。
数据多样性的增加主要由包括网络日志、社交媒体、互联网搜索、
手机通话记录等数据类型造成的。
(3)高速:指的是需要实现对大数据的快速处理和分析任
务,以实时满足用户需求。
(4) 易变性:大数据具有多层结构,这意味着大数据会呈现
出多变的形式和类型。
由于大数据的上述几种特性,使得采用传统数据库技术来处理
大数据存如下一些问题:
.. .专业 . .
. . .. . .
第一,平时使用的计算机存储容量和计算速度都无法满足大数
据的存储和计算要求。虽然可以根据数据的大小采取增强机器配置
的方法来满足需求,但是代价是及其昂贵的;
第二,传统关系型数据库只能用于存储和查询结构化的数据类
型,而无法满足多样化数据的存储;
第三,传统数据库系统的分析处理能力也无法满足快速处理大
数据的处理请求。
正是因为传统技术有着这些方面的不是,用于处理数掘的
Hadoop 技术诞生了,Hadoop 是上述解决方案的实现框架。
Hadoop 平台 Apache 是开源设计的,它是部署在廉价的计算机集
群上的一个分布式计算框架。与 PC 机类似,Hadoop 也为应程序提
供一组稳定、灵活、可靠的接口。Hadoop 括许多子项目,如
HDFS、HBase、 MapRedeuce 等。其中分布式文件系统(HDFS)
主要是用来存储非结构化数掘的;HBase 用来存储海量半结构化数据
的; MapReduce 作为一种并行编程模型,可以很好的实现大数据
时代的计算任务。所以木文将对 Hadoop 进行深入的研究,并对它
的一些性能进行分析,进而让我们更了解该系统。
本文的研究意义如下:
(1)随着数据量的爆炸式增长,如何有效的存储海量数据、如何高
效的从现存海量数据中获得所需信息,对经济、社会、政治发展都具
有重要的意义。
(2)Hadoop 是为存储、处理大数据而产生。Hadoop 框架将数
据的存储和处理集成于一体,因此在大数据时代研究 Hadoop 具有
重要的理论意义。
(3)HDFS 和 MapReduce 作为 Hadoop 核心部件,对它们进行
研究和优化,可以更好的理解 Hadoop 运行机制,在一定程度上提高
Hadoop 系统的整体性能,对 Hadoop 在大数据环境中的使用具有
重要的意义。
1.2、国外的研究现状
.. .专业 . .
剩余16页未读,继续阅读
资源评论
G11176593
- 粉丝: 6640
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功