Netix 基于 AWS 的大数据平台 Hadoop 架构解析
摘要:Netix 近日在官方的博客上的公开了部署在 AWS 之上的 Hadoop 平台架
构,而且该架构还是属于“独家制造”.Netix 的数据科学家在官方的博客中介绍
了该平台在运行、管理以及访问多集群时的灵活性,还包括基于 AWS 的 Hadoop
架构以及 Hadoop 平台即服务(PaaS)。
【CSDN 报道】Netix 近日公开了部署在 AWS 之上的 Hadoop 平台架构,而且
运行 Hadoop 工作负载的架构还是属于“独家制造”。来自 Netix 的数据科学家
Sriram Krishnan 和 Eva Tse 在官方的博客中介绍了该平台在运行、管理以及访问
多集群时的灵活性,还包括基于 AWS 的 Hadoop 架构以及 Hadoop 平台即服务
(PaaS),该服务被称之为“Genie”。
毋庸置疑,Netix 在云计算领域有着很独特的发展——几乎把所有的一切都部署
在 AWS 平台之上;除此之外,Netix 已经把触角深入到大数据工作负载的领域。
Netix 是一个“重量级”的 Hadoop 用户,在 2012 年 6 月份 Gigaom 的记者 Derrick
Harris 就撰文阐述了 Netix 如何收集用户的数据,进而使用一些方法来对这些数
据进行分析,而正是 Hadoop 在存储以及处理这些数据时为 Netix 立下了“汗马
功劳”.对该技术博客的编译如下:
云端:Hadoop 平台即服务
Hadoop 在管理和处理数百 TB 到 PB 级数据上的能力,已经成为事实上的标准。
在 Netix 中,基于 Hadoop 的数据仓库已经是 PB 级的规模,而且增长迅速。不
过随着大数据时代的爆发,这也不是什么新鲜事。然而该架构是独一无二的,它
可以帮助 Netix 在云端构建一个几乎是无限规模的数据仓库。(无论是数据的处
理还是计算能力都很强大)
在本文中 Sriram 和 Eva 讨论这个基于云的数据仓库,阐述了它和传统基于数据
中心 Hadoop 架构的不同之处;还有他们是如何利用弹性云来构建这个具有动态
扩展性的系统。与此同时,他们还介绍了 Genie,这是自家的 Hadoop 平台服务
(PaaS),而且为作业执行和资源管理提供了一个 REST—ful API。
架构视图
传统的基于数据中心的 Hadoop 数据仓库, 数据被托管在 HDFS 上,HDFS 能够运
行在标准硬件之上,提供高容错性和高吞吐量的大型数据集的访问.在云端搭建