没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
大数据 Hadoop、MapReduce、Hive 项目实
践
一.大数据概述
1.1. 大数据概念
而所谓的大数据,就是指大量(Volume),多样(Variety),快速(Velocity),价值
密度低(Value)的数据,这四个特性也被称为大数据的 4V 特性,传统数据库面对此类数据
遇到全面挑战,才使得大数据技术飞速发展。
1.2. 大数据的意义
1.2.1.企业之所以要使用大数据,归根结底还是因为需求,业
务需求;
企业切换至大数据平台,一种可能是为了解决现有的 RDBMS(关系型数据库管理系统)的
瓶颈,无论是存储量瓶颈还是效率瓶颈;另一种可能是为了支持新的业务需求,很多新需求
无论从数据量级、数据种类还是处理方式上都不是旧有数据环境能够满足的,所以才需要新
的数据环境。
e.g.
销售部门希望能够得到需要维护的客户名单和活动率低的酒店会场名单;
决策层希望能够知道最近一个月订单不活跃的客户群以便调整优惠价格;
电商企业系统实时显示活动售卖量及售卖金额;
1.3. 大数据平台介绍
1.3.1. Hadoop 平台
属于 Apache(开源基金组织)的开源项目。免费开源,并广泛应用于有大数据需求的各行
各业。
国内的大数据平台:
国内也涌现出了一批优秀的提供大数据服务的公司;
其中提供云端大数据服务的华为、阿里巴巴,提供数据存储硬件的浪潮、提供数据库&数据
平台类服务的星环和数据应用方面的帆软、海云数据等;
国内近几年也在加快自主研发数据平台的脚步,国产的数据库和大数据环境已经有很多成功
落地并应用在国内各行业中,相信未来国产数据产品一定会越来越强大。
1.4. 大数据技术架构构成
1.4.1.传统的服务器架构多数采取单机、主备、主从的架构,
在 Scale-out 扩展性上存在先天缺陷;
1.4.2.而现有大数据技术的架构基本上都采用分片式架构,将
数据分散在多个节点上,以满足多个节点可以并行处理大量
数据的需求;
1.4.3.Hadoop 集群采用主-从结构,其中主节点主要负责元
数据的存储及从节点管理等工作,而从节点(也称为工作节
点)主要负责真实数据存储和计算等工作。
1.4.4.hadoop 的生态系统
Hadoop 生态环境所包含的组件相当复杂,其中较为常见的就有很多;
1.5. hadoop 的核心组件
HDFS---Hadoop 分布式的文件系统组件
MapReduce---用于进行数据统计分析计算的组件
Hbase---大数据的存储系统(Hive)
最新的核心组件构成
由于早期架构主节点资源成为集群瓶颈,不利于集群大规模扩展,所以 Hadoop 自 2 版本开
始,核心组件除 HBase 外变为 3 个:
HDFS 分布式文件系统 => 数据存储层
Yarn 资源管理系统 => 资源管理层
MapReduce 分布式计算框架 => 数据处理层
Hadoop 2 版本开始加入了主节点的 HA(高可用性)功能,并将资源管理完全交于 Yarn 负
责,使得主节点资源消耗得以缓解,可实现更大规模的集群;
且 Hadoop 将资源管理层和数据处理层分离后,可实现多种其余计算框架的支持,如 Spark
内存级分布式计算框架及 Flink 流式计算框架;
1.6. 大数据模型框架
1.7. 大数据的集群规划
1.7.1. 集群节点的分类
节点可以分为 ’worker 节点’ 和 ’master 节点’ 两类
Worker 节点运行 DataNode,NodeManager 等守护进程
Master 节点运行 NameNode,SecondaryNameNode,或者 ResourceManager 等守护进程
在小型集群中,NameNode 和 ResourceManager 经常运行在同一台机器中;
甚至有些情况 SecondaryNameNode 也运行在同一台机器上
至少将 NameNode 的元数据拷贝到一台独立的机器上是很重要的
1.7.2. 基本集群配置
Hadoop 集群包含多个组件,在规划集群时首先应该考虑如何划分各个组件所在节点位置;
剩余395页未读,继续阅读
资源评论
zhhlk
- 粉丝: 63
- 资源: 32
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功