使用Ambari搭建Hadoop集群资源-CSDN文库

需积分: 50 129 浏览量 2018-08-20 22:27:50 上传评论收藏 546KB PDF 举报

资源推荐

资源详情

资源评论

Hadoop介绍

Hadoop是一个开发和运行处理大规模数据的软件平台，是Apache的一个用java语言实现

开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架

中最核心设计就是：MapReduce和HDFS。MapReduce提供了对数据的分布式计算，

HDFS提供了海量数据的分布式存储。

在Hadoop家族中，收入了20多个用于计算、分析、存储、监控、管理等组件和工具，这些

家族成员极大的丰富了Hadoop的各方面的功能。

Hadoop常见家族成员

下面简单的列举几个常见的组件：

ApacheHadoop:是Apache开源组织的一个分布式计算开源框架，提供了一个

分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。

ApacheHive:是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件

映射为一张数据库表，通过类SQL语句快速实现简单的MapReduce统计，不必开发

专门的MapReduce应用，十分适合数据仓库的统计分析。

ApachePig:是一个基于Hadoop的大规模数据分析工具，它提供的SQL-LIKE语

言叫PigLatin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处

理的MapReduce运算。

ApacheHBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系

统，利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。

ApacheSqoop:是一个用来将Hadoop和关系型数据库中的数据相互转移的工

具，可以将一个关系型数据库（MySQL,Oracle,Postgres等）中的数据导进到

Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

ApacheZookeeper:是一个为分布式应用所设计的分布的、开源的协调服务，

它主要是用来解决分布式应用中经常遇到的一些数据管理问题，简化分布式应用协调

及其管理的难度，提供高性能的分布式服务

ApacheMahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。

Mahout用MapReduce实现了部分数据挖掘算法，解决了并行挖掘的问题。

ApacheCassandra:是一套开源分布式NoSQL数据库系统。它最初由Facebook

开发，用于储存简单格式数据，集GoogleBigTable的数据模型与AmazonDynamo

的完全分布式的架构于一身

ApacheAvro:是一个数据序列化系统，设计用于支持数据密集型，大批量数据

交换的应用。Avro是新的数据序列化格式与传输工具，将逐步取代Hadoop原有的

IPC机制

ApacheAmbari:是一种基于Web的工具，支持Hadoop集群的供应、管理和监

控。

ApacheChukwa:是一个开源的用于监控大型分布式系统的数据收集系统，它

可以将各种各样类型的数据收集成适合Hadoop处理的文件保存在HDFS中供

Hadoop进行各种MapReduce操作。

ApacheHama:是一个基于HDFS的BSP（BulkSynchronousParallel)并行计

算框架,Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。

ApacheFlume:是一个分布的、可靠的、高可用的海量日志聚合的系统，可用

于日志数据收集，日志数据处理，日志数据传输。

ApacheGiraph:是一个可伸缩的分布式迭代图处理系统，基于Hadoop平台，

灵感来自BSP(bulksynchronousparallel)和Google的Pregel。

ApacheOozie:是一个工作流引擎服务器,用于管理和协调运行在Hadoop平台

上（HDFS、Pig和MapReduce）的任务。

ApacheCrunch:是基于Google的FlumeJava库编写的Java库，用于创建

MapReduce程序。与Hive，Pig类似，Crunch提供了用于实现如连接数据、执行聚

合和排序记录等常见任务的模式库

ApacheWhirr:是一套运行于云服务的类库（包括Hadoop），可提供高度的互

补性。Whirr学支持AmazonEC2和Rackspace的服务。

ApacheBigtop:是一个对Hadoop及其周边生态进行打包，分发和测试的工

具。

ApacheHCatalog:是基于Hadoop的数据表和存储管理，实现中央的元数据和

模式管理，跨越Hadoop和RDBMS，利用Pig和Hive提供关系视图。

ClouderaHue:是一个基于WEB的监控和管理系统，实现对HDFS，

MapReduce/YARN,HBase,Hive,Pig的web化操作和管理。

Ambari介绍

Ambari跟Hadoop等开源软件一样，也是ApacheSoftwareFoundation中的一个项

目，并且是顶级项目。目前最新的发布版本是2.6.0。Ambari是用来创建、管理、监视

Hadoop的集群，但是这里的Hadoop是广义，指的是Hadoop整个生态圈（例如

剩余13页未读，继续阅读

内容反馈

悲催哥哥

粉丝: 5
资源: 63

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip