"Hadoop入门指南" 本资源摘要信息对Hadoop进行了详细的介绍,从是什么、发展历史、架构到应用场景、优势等方面进行了全方位的探索,让读者对Hadoop有一个系统的了解。 一、Hadoop是什么? Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要解决海量数据的存储和分析计算问题。Hadoop的设计理念是“一头牛拉不动货物,就找几头牛一起拉”,它可以将大规模数据处理任务分配到多个节点上,以提高处理速度。 二、Hadoop发展历史 Hadoop的发展历史可以追溯到2001年,Doug Cutting等人开发了Lucene,并将其作为Apache基金会的一个子项目。后来,Doug Cutting等人又开发了Nutch,学习和模仿Google解决大规模数据处理问题的办法。2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年,Map-Reduce和NDFS分别被纳入称为Hadoop的项目中。Hadoop的名字来源于Doug Cutting儿子的玩具大象。 三、Hadoop三大发行版本 Hadoop有三大发行版本:Apache、Cloudera和Hortonworks。Apache版本是最原始(最基础)的版本,对于入门学习最好。Cloudera版本在大型互联网企业中用的较多,Hortonworks文档较好。 四、大数据特点 大数据有四个特点:Volume(大量)、Velocity(高速)、Variety(多样)和Value(低价值密度)。大数据应用场景非常广泛,包括金融行业、医疗行业、零售、互联网行业、能源开采、城市管理、在线旅游等。 五、Hadoop优势 Hadoop有六大优势:高可靠性、高扩展性、高效性、高容错性、低成本和基于java语言编写的。Hadoop可以在廉价的机器上运行,且具有高可靠性和高扩展性。 六、HDFS架构概述 HDFS(Hadoop Distributed File System)是Hadoop的分布式文件系统,主要由NameNode和DataNode组成。NameNode存储文件的元数据,而DataNode存储文件块数据。 七、Hadoop 1.x 2.x 3.x区别 Hadoop 1.x、2.x和3.x的主要区别在于它们的组成和架构,Hadoop 3.x在组成上和2.x没有什么区别,只有一些细节区别。
剩余218页未读,继续阅读
- 粉丝: 141
- 资源: 6
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助