没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
Hadoop介绍
Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用java语言实现
开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架
中最核心设计就是:MapReduce和HDFS。MapReduce提供了对数据的分布式计算,
HDFS提供了海量数据的分布式存储。
在Hadoop家族中,收入了20多个用于计算、分析、存储、监控、管理等组件和工具,这些
家族成员极大的丰富了Hadoop的各方面的功能。
Hadoop常见家族成员
下面简单的列举几个常见的组件:
ApacheHadoop:是Apache开源组织的一个分布式计算开源框架,提供了一个
分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。
ApacheHive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件
映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发
专门的MapReduce应用,十分适合数据仓库的统计分析。
ApachePig:是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语
言叫PigLatin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处
理的MapReduce运算。
ApacheHBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系
统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。
ApacheSqoop:是一个用来将Hadoop和关系型数据库中的数据相互转移的工
具,可以将一个关系型数据库(MySQL,Oracle,Postgres等)中的数据导进到
Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
ApacheZookeeper:是一个为分布式应用所设计的分布的、开源的协调服务,
它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调
及其管理的难度,提供高性能的分布式服务
ApacheMahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。
Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。
ApacheCassandra:是一套开源分布式NoSQL数据库系统。它最初由Facebook
开发,用于储存简单格式数据,集GoogleBigTable的数据模型与AmazonDynamo
的完全分布式的架构于一身
ApacheAvro:是一个数据序列化系统,设计用于支持数据密集型,大批量数据
交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的
IPC机制
ApacheAmbari:是一种基于Web的工具,支持Hadoop集群的供应、管理和监
控。
ApacheChukwa:是一个开源的用于监控大型分布式系统的数据收集系统,它
可以将各种各样类型的数据收集成适合Hadoop处理的文件保存在HDFS中供
Hadoop进行各种MapReduce操作。
ApacheHama:是一个基于HDFS的BSP(BulkSynchronousParallel)并行计
算框架,Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。
ApacheFlume:是一个分布的、可靠的、高可用的海量日志聚合的系统,可用
于日志数据收集,日志数据处理,日志数据传输。
ApacheGiraph:是一个可伸缩的分布式迭代图处理系统,基于Hadoop平台,
灵感来自BSP(bulksynchronousparallel)和Google的Pregel。
ApacheOozie:是一个工作流引擎服务器,用于管理和协调运行在Hadoop平台
上(HDFS、Pig和MapReduce)的任务。
ApacheCrunch:是基于Google的FlumeJava库编写的Java库,用于创建
MapReduce程序。与Hive,Pig类似,Crunch提供了用于实现如连接数据、执行聚
合和排序记录等常见任务的模式库
ApacheWhirr:是一套运行于云服务的类库(包括Hadoop),可提供高度的互
补性。Whirr学支持AmazonEC2和Rackspace的服务。
ApacheBigtop:是一个对Hadoop及其周边生态进行打包,分发和测试的工
具。
ApacheHCatalog:是基于Hadoop的数据表和存储管理,实现中央的元数据和
模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供关系视图。
ClouderaHue:是一个基于WEB的监控和管理系统,实现对HDFS,
MapReduce/YARN,HBase,Hive,Pig的web化操作和管理。
Ambari介绍
Ambari跟Hadoop等开源软件一样,也是ApacheSoftwareFoundation中的一个项
目,并且是顶级项目。目前最新的发布版本是2.6.0。Ambari是用来创建、管理、监视
Hadoop的集群,但是这里的Hadoop是广义,指的是Hadoop整个生态圈(例如
Hive,Hbase,Sqoop,Zookeeper等),而并不仅是特指Hadoop。用一句话来说,
Ambari就是为了让Hadoop以及相关的大数据软件更容易使用的一个工具。
Ambari提供了对Hadoop更加方便快捷的管理功能,主要包含:
通过一步一步的安装向导简化了集群供应。
预先配置好关键的运维指标(metrics),可以直接查看HadoopCore(HDFS
和MapReduce)及相关项目(如HBase、Hive和HCatalog)是否健康。
支持作业与任务执行的可视化与分析,能够更好地查看依赖和性能。
通过一个完整的RESTfulAPI把监控信息暴露出来,集成了现有的运维工具。
用户界面非常直观,用户可以轻松有效地查看信息并控制集群。
使用Ambari部署Hadoop集群
在使用Ambari安装部署Hadoop时,需要对下载镜像源,配置本地环境。
配置说明
主机:
node-1:192.168.10.11,配置:2C8G-30G,yum镜像源,数据库,java环境
node-2:192.168.10.12,配置:2C8G-30G,java环境
node-2:192.168.10.12,配置:2C8G-30G,java环境
软件包Hadoop软件镜像压缩包,Ambari镜像压缩包,版本2.6
配置本地yum源
1、在node-1上配置hadoop所有组件的yum源。安装httpd:
[root@node-1 ~]# yum install httpd -y
2、在官方下载镜像文件,此文件大概7G,可以使用p2p工具下载,其中包含两个repo文件
和4个压缩包:
剩余13页未读,继续阅读
资源评论
悲催哥哥
- 粉丝: 5
- 资源: 63
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功