Learning Hadoop 2.pdf
Hadoop是一个开源的分布式存储与计算平台,它被广泛用于处理大规模数据。该平台的核心是HDFS(Hadoop Distributed File System)用于大规模数据存储,以及MapReduce编程模型用于处理这些数据。Hadoop的发展经历了多个版本的更迭,其中Hadoop 2是一个重要的里程碑,它引入了YARN(Yet Another Resource Negotiator),这是一个资源管理平台,允许不同的数据处理模型运行在同一个Hadoop集群上。 在介绍Hadoop 2这本书的内容之前,我们先来了解一些基础知识点。Hadoop是由Apache软件基金会开发的一个开源框架,它允许用户在廉价的硬件上进行可靠的、可扩展的分布式计算。Hadoop支持数据密集型应用,通过并行处理,它能够快速处理TB级别的数据集。 接下来,我们来看看Hadoop 2相较于之前版本有哪些重要的改进。最核心的变化就是引入了YARN。YARN的主要功能是资源管理,它为集群中的应用提供了资源请求、调度和监控能力。YARN的设计目标是解决Hadoop 1的资源管理和任务调度的瓶颈问题,使得计算资源得到更合理的分配和利用。YARN的核心是ResourceManager和NodeManager,ResourceManager是负责整个集群资源管理和分配的组件,NodeManager负责管理单个节点上的资源,并且向ResourceManager汇报。而应用程序由ApplicationMaster管理,它负责与ResourceManager协商资源,并与NodeManager协调任务的执行。 除了YARN之外,Hadoop 2的另一个亮点是HDFS的高可用性配置。在Hadoop 1时代,NameNode是HDFS的单点故障。Hadoop 2通过引入Quorum Journal Manager和热备NameNode的机制解决了这个问题,大大提高了系统的可靠性和可用性。 现在,我们来谈谈这本书的主要内容,根据提供的内容片段,该书详细介绍了使用Hadoop 2工具箱来设计、实现数据处理、生命周期管理和分析工作流。作者是Garry Turkington和Gabriele Modena,这两位作者在Hadoop领域拥有深厚的技术背景和实践经验。Garry Turkington在设计和实施大型分布式系统方面拥有超过15年的行业经验,他在Improve Digital担任CTO,主要负责实现能够存储、处理和从公司大量数据中提取价值的系统。 书中的教学内容涵盖了Hadoop 2的关键特性,旨在帮助读者全面掌握如何使用Hadoop生态系统解决大数据问题。书籍可能包含但不限于以下主题:Hadoop 2的基础架构、HDFS的高级配置、YARN资源管理、MapReduce编程模型、Hadoop生态系统中的其他工具,比如Hive、Pig、Zookeeper、HBase等等。 值得注意的是,这本书并不只是简单地介绍Hadoop 2的基本概念和工具使用,它还强调了设计和实现这两个关键词。这意味着书籍可能会深入讨论如何在复杂的现实世界问题中,应用Hadoop 2的高级特性来解决实际问题,比如数据的生命周期管理,包括数据的采集、存储、处理、分析、共享和归档等环节。 书籍中还包括了一些实际案例,这可以帮助读者更好地理解如何在真实场景中应用Hadoop 2,并且有可能涉及性能优化、故障诊断和集群监控等高级主题。 总而言之,"Learning Hadoop 2" 作为一本专注于Hadoop 2的教程书籍,它的目标是引导读者深入理解Hadoop 2的架构、特性以及如何高效地使用它来处理大数据。这本书适合对大数据技术有浓厚兴趣的读者,尤其是那些希望在Hadoop生态系统中建立强大技能的开发者和数据工程师。通过学习这本书,读者将能够掌握Hadoop 2的所有关键概念,并能够在实际项目中发挥巨大作用。
剩余381页未读,继续阅读
- siemenshoter2018-06-30packt原版英文书真不错。入门首选。
- minotaur2k42016-09-25是原版pdf.有一点水印。
- dianeylee2016-07-07这么好的资料为什么没有评论?
- 粉丝: 627
- 资源: 381
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助