基于Hadoop的⼤数据处理系统 基于Hadoop的⼤数据处理系统 基于Hadoop的⼤数据处理系统 By 2015/11/10 0. 前⾔ 伴随Internet和Web技术的飞速发展,⽹络⽇志、互联⽹搜索索引、电⼦商务、社交⽹站等技术的⼴泛使⽤带来了数据量的急剧增长。计算 机技术在各⾏各业的普遍使⽤也促使⼤量数据的产⽣,如物联⽹中的传感器所产⽣的海量数据。近⼏年数据以惊⼈的速度增长,这预⽰我们 ⼰经进⼊⼤数据时代。⼤数据时代给我们带来的不仅是数据量的爆炸式增长、数据结构的复杂多样,⽽且也使处理这些数据信息的⼿段变的 复杂起来。海量数据的存储以及分布式计算是⼤数据分析与处理的⾸要问题。 ⽬前⼤数据的处理平台以Hadoop为主,Hadoop是⼀个开源的可运⾏于⼤规模集群上的分布式⽂件系统和和分布式计算的基础框架,提供 了对于海量数据存储以及分布式计算的⽀持。Hadoop擅长于在廉价机器搭建的集群上进⾏海量数据(结构化与⾮结构化)的存储与离线处 理,⽬前能够让数千台普通、廉价的服务器组成⼀个稳定的、强⼤的集群,使其能够对PB级别的⼤数据进⾏存储、计算。此外,Hadoop已 经具有了强⼤稳定的⽣态系统,有很多延伸产品,如Hive,HBase,Sqoop,ZooKeeper等等。Hadoop的这些优势,使其成为⼤数据处 理的⾸选平台和开发标准。我们⽬前进⾏的⼤数据学习研究也是基于Hadoop平台展开。 本报告主要包括以下⼏⽅⾯主题: 1. 分布式计算架构及分布式计算原理概述 2. Hadoop架构及集群⽅式介绍 3. 基于Hadoop完全分布式集群进⾏演⽰ 1. 架构介绍 ⼤数据处理平台依赖于分布式存储和分布式计算。本节主要包括以下⼏个要点: 1.1 分布式系统架构 分布式数据处理系统主要处理以下两⽅⾯的问题: 1. 存储 分布式存储系统,解决海量数据的存储及管理。典型的分布式存储系统有NFS,AFS,GFS,HDFS等等。 2. 计算 分布式计算系统,主要处理计算资源的调度,任务监控,系统容错,节点间协调等问题。⽐较典型的是MapReduce架构。 1.2. Hadoop系统架构 Hadoop DFS Hadoop分布式⽂件系统,简称HDFS,是⼀个分布式⽂件系统。它是⾕歌GFS的开源实现。具有较⾼的容错性,⽽且提供了⾼吞吐量的数 据访问,⾮常适合⼤规模数据集上的应⽤,是⼀个⾼度容错性和⾼吞吐量的海量数据存储解决⽅案。 Hadoop MapReduce MapReduce的名字源于这个模型中的两项核⼼操作:Map和Reduce。这是函数式编程(Functional Programming)中的两个核⼼概 念。 MapReduce是⼀种简化的分布式编程模式,让程序⾃动分布到⼀个由普通机器组成的超⼤集群上并发执⾏。如同Java程序员可以不考虑内 存泄露⼀样,MapReduce的runtime系统会解决输⼊数据的分布细节,跨越机器集群的程序执⾏调度,处理机器的失效,并且管理机器之 间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超⼤的分布式系统资源。这样的优势 使得Hadoop在众多分布式存储和计算技术中脱颖⽽出,成为⼤数据分析与处理的标准平台。 2. 集群⽅式 Hadoop有三种集群⽅式可以选择: Local (Standalone) Mode Pseudo-Distributed Mode Fully-Distributed Mode 以下分别予以介绍。 Local (Standalone) Mode Local (Standalone) Mode即单机模式,是⼀种⽆集群模式,⽐较简单。⼀般成功安装Hadoop并配置相关环境变量(主要是 JAVA_HOME和HADOOP_HOME)后即可进⼊该模式,⽽⽆需额外配置。该模式并没有充分发挥分布式计算的优势,因为集群中只有⼀台 主机,但是该模式下可以测试Hadoop及相关环境变量是否配置正常。 Pseudo-Distributed Mode Pseudo-Distributed Mode即伪分布模式,它是单机集群模式。Hadoop可以在单节点上以伪分布式的⽅式运⾏,Hadoop进程以分离的 Java进程来运⾏,节点既作为NameNode也作为DataNode。伪分布式模式配置也很简单,只需在单机模式基础上配置core- site.xml,hdfs-site.xml,mapred-site.xml和yarn-site.xml这4个⽂件(对应的默认参数在core-default.xml,hdfs-default.xml,mapred- default.xml和yarn-default.xml⽂件中)即可。这4个⽂件的最⼩配置和详细配置可以参照相关教程或者
- 粉丝: 168
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助