没有合适的资源?快使用搜索试试~ 我知道了~
1)BIGDATA搭建-Hadoop集群坏境搭建配置.docx
需积分: 0 2 下载量 61 浏览量
2018-04-13
16:28:53
上传
评论
收藏 165KB DOCX 举报
温馨提示
1)BIGDATA搭建-Hadoop集群坏境搭建配置.docx, 手把手教你一步步搭建起大数据环境来
资源推荐
资源详情
资源评论
前言
关于时下最热的技术潮流,无疑大数据是首当其中最热的一个技术点,关于大数据的概念
和方法论铺天盖地的到处宣扬,但其实很多公司或者技术人员也不能详细的讲解其真正的
含义或者就没找到能被落地实施的可行性方案,更有很多数据相关的项目比如弄几张报表,
写几个 T-SQL 语句就被冠以“大数据项目”,当然了,时下热门的话题嘛,先把“大数据”帽
子扣上,这样才能显示出项目的高大上,得到公司的重视或者高层领导的关注。
首先,关于大数据的概念或者架构一直在各方争议的背景下持续的存在着。目前,关于大
数据项目可以真正被落地实施的解决方案就是:Hadoop 为核心的的一些列开源分布式解
决方案。
其次,本系列,我们不讲一些抽象的方法论或者概念性的东西,我将实际的跟大家分享一
个真正的大数据解决方案将如何被落地实施。包括与其相关的的配套开源系统:
Hive、Spark、Sqoop、Hue、Zookeeper、Kafka 等诸多产品的搭建。
再次、关于大数据的生态圈每一个产品都有着强大的技术背景做支撑。所以,本系列我们
重点放在如何搭建和使用等诸多技术实施点上,不扯太虚的东西。
技术准备
进入本篇的正题,本篇我们主要来分析如何来搭建一个 Hadoop 集群环境,其实 Hadoop
的搭建分为三种形式:单机模式、伪分布模式、完全分布模式,关于这三种模式其实都是
扯淡,只要掌握了完全分布模式,也就是集群模式的搭建,剩下的两种模式自然而然就会
用了,一般前两种模式一般用在开发或测试环境下,Hadoop 最大的优势就是分布式集群
计算,所以在生产环境下都是搭建的最后一种模式:完全分布模式。
所以,本篇我们来讲解 Hadoop 集群环境的搭建。
一般,当公司要开始搭建 Hadoop 集群的时候,需要考虑一下技术点:
一、硬件的选择
首先,关于 Hadoop 集群环境硬件的选择,无非就是围绕几个面去选择:
1、需要搭建集群包含几个节点(Node)?
关于这个问题,引入的要考虑的点就是需要搭建几个 Server 环境,因为在分布式环境
中,一个服务器(Server)就是一个节点,所以在选择节点的问题上是需要参照参照当前
集群所要应用的业务场景来决定了,当然,在分布式集群环境中节点越多所带来的就是整
个集群性能的提升,同样也也就意味着带来了成本的增高。
但是,关于 Hadoop 集群有一个最低的节点量供大家参考。
首先,在一个 Hadoop 集群环境中,NameNode,SecondaryNameNode 和
DataNode 是需要分配不同的节点上的,所以至少有三个节点来当然这些角色。这也就意
PUBLIC
味至少需要有三台服务器。当然,在 Hadoop 运行作业完成的时候,还需要另外一个角色
History Server 来记录历史程序的运行情况,建议是将这个角色用独立的一台服务器来运
行。
所以,在一个最简单的 Hadoop 分布式集群中至少需要三台服务器来构建:
o 第一台用来记录所有的数据分布情况,运行的进程就是 NameNode
o 第二台用来备份所有数据分布情况,毕竟当前面的那台服务器宕机的时候,还可
以通过该服务器来恢复数据。所以,该服务器运行的程序就是
SecondaryNameNode
o 第三台用来存储实际的数据,运行的进程就是 DataNode
o 第四台是可选的服务器用来记录应用程序历史的运行状况。运行的程序就是
History Server 了。
2、集群环境中各个服务里该如何选择配置?
其实这个问题就是配置选型的问题,关于配置无非就是内存、CPU、存储等如何选择,
当然,在公司预算允许的情况下,配置越高越好,关于这些个问题在搭建 Hadoop 环境的
时候,需要从以下几个点来考虑。
首先,关于集群中的几个节点是根据角色的划分有侧重点进行配置的,并不是要求所
有的服务器都弄一样的配置,在 Hadoop 集群环境中,最重要的就是 NameNode 运行的
服务器了,因为它扮演的角色是整个集群的调度和协调工作,当然在这个角色中还有一个
最重要的进程是资源管理(ResourceManager),它才是真正的协调整个集群中每个节
点的运行。所以这个服务器的配置要高于其它节点。
其次,在 Hadoop 集群运行的过程是需要将所有的数据分布记录拉入到内存中的,所
以这就意味着当整个集群的数据越来越大,我们知道在大数据的环境下,几 TB 级别或者
PB 级别的数据是很常见的,这也就意味这个数据分布记录也要增大,所以需要加大内存,
这里有一个参考依据:
一般 1GB 内存可以管理百万个 block 文件。
举例:bolck 为 128M,副本为 3 个,200 台集群,4TB 数据,需要的 Namenode 内
存为:200(服务器数)x4194304MB(4TB 数据)/(128MBx3)=2184533.33
个文件=2.18 百万个文件,所以内存值也就接近于 2.2G 了。
再次,因为这里有有一台机器用来做备份,所以 secondary namenode 需要的内存与
namenode 需要的内存大概一样,然后就是从节点的各台服务器需要的内存量了,这里也
有一个参考依据:
o 首先计算当前 CPU 的虚拟核数(Vcore):虚拟核数(Vcore)=CPU 个数*单
CPU 合数*HT(超线程数)
o 然后根据虚拟核数配置内存容量:内存容量=虚拟核数(Vcore)*2GB(至少
2GB)
关于 CPU 的选择,因为 Hadoop 为分布式计算运算,所以其运行模型基本是密集型并
行计算,所以推荐的 CPU 要尽量选择多路多核的,条件允许的话每个节点都要如此。
PUBLIC
剩余6页未读,继续阅读
资源评论
fireson0
- 粉丝: 1
- 资源: 41
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Vue+NodeJS的学生社团管理系统(前后端代码)
- 基于SSM+JSP的快递管理系统(前后端代码)
- 全球火点数据-modis-2015-2023年
- YOLOv8完整网络结构图详细visio
- LCD1602电子时钟程序
- 西北太平洋热带气旋【灾害风险统计】及【登陆我国次数评估】数据集-1980-2023
- 全球干旱数据集【自校准帕尔默干旱程度指数scPDSI】-190101-202312-0.5x0.5
- 基于Python实现的VAE(变分自编码器)训练算法源代码+使用说明
- 全球干旱数据集【标准化降水蒸发指数SPEI-12】-190101-202312-0.5x0.5
- C语言小游戏-五子棋-详细代码可运行
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功