没有合适的资源？快使用搜索试试~ 我知道了~

文库首页大数据Hive大数据Hadoop、MapReduce、Hive项目实践

大数据Hadoop、MapReduce、Hive项目实践

hadoop

mapreduce

hive

需积分: 5 0 下载量 141 浏览量 2023-11-09 10:24:20 上传评论 1 收藏 18.63MB DOCX 举报

温馨提示

试读

396页

大数据Hadoop、MapReduce、Hive项目实践

资源推荐

资源详情

资源评论

大数据 Hadoop、MapReduce、Hive 项目实

践

一．大数据概述

1.1. 大数据概念

而所谓的大数据，就是指大量（Volume），多样（Variety），快速（Velocity），价值

密度低（Value）的数据，这四个特性也被称为大数据的 4V 特性，传统数据库面对此类数据

遇到全面挑战，才使得大数据技术飞速发展。

1.2. 大数据的意义

1.2.1.企业之所以要使用大数据，归根结底还是因为需求，业

务需求；

企业切换至大数据平台，一种可能是为了解决现有的 RDBMS（关系型数据库管理系统）的

瓶颈，无论是存储量瓶颈还是效率瓶颈；另一种可能是为了支持新的业务需求，很多新需求

无论从数据量级、数据种类还是处理方式上都不是旧有数据环境能够满足的，所以才需要新

的数据环境。

e.g.

销售部门希望能够得到需要维护的客户名单和活动率低的酒店会场名单；

决策层希望能够知道最近一个月订单不活跃的客户群以便调整优惠价格；

电商企业系统实时显示活动售卖量及售卖金额；

1.3. 大数据平台介绍

1.3.1. Hadoop 平台

属于 Apache（开源基金组织）的开源项目。免费开源，并广泛应用于有大数据需求的各行

各业。

国内的大数据平台:

国内也涌现出了一批优秀的提供大数据服务的公司；

其中提供云端大数据服务的华为、阿里巴巴，提供数据存储硬件的浪潮、提供数据库&数据

平台类服务的星环和数据应用方面的帆软、海云数据等；

国内近几年也在加快自主研发数据平台的脚步，国产的数据库和大数据环境已经有很多成功

落地并应用在国内各行业中，相信未来国产数据产品一定会越来越强大。

1.4. 大数据技术架构构成

1.4.1.传统的服务器架构多数采取单机、主备、主从的架构，

在 Scale-out 扩展性上存在先天缺陷；

1.4.2.而现有大数据技术的架构基本上都采用分片式架构，将

数据分散在多个节点上，以满足多个节点可以并行处理大量

数据的需求；

1.4.3.Hadoop 集群采用主-从结构，其中主节点主要负责元

数据的存储及从节点管理等工作，而从节点（也称为工作节

点）主要负责真实数据存储和计算等工作。

1.4.4.hadoop 的生态系统

Hadoop 生态环境所包含的组件相当复杂，其中较为常见的就有很多；

1.5. hadoop 的核心组件

HDFS---Hadoop 分布式的文件系统组件

MapReduce---用于进行数据统计分析计算的组件

Hbase---大数据的存储系统（Hive）

最新的核心组件构成

由于早期架构主节点资源成为集群瓶颈，不利于集群大规模扩展，所以 Hadoop 自 2 版本开

始，核心组件除 HBase 外变为 3 个：

HDFS 分布式文件系统 => 数据存储层

Yarn 资源管理系统 => 资源管理层

MapReduce 分布式计算框架 => 数据处理层

Hadoop 2 版本开始加入了主节点的 HA（高可用性）功能，并将资源管理完全交于 Yarn 负

责，使得主节点资源消耗得以缓解，可实现更大规模的集群；

且 Hadoop 将资源管理层和数据处理层分离后，可实现多种其余计算框架的支持，如 Spark

内存级分布式计算框架及 Flink 流式计算框架；

1.6. 大数据模型框架

1.7. 大数据的集群规划

1.7.1. 集群节点的分类

节点可以分为 ’worker 节点’ 和 ’master 节点’ 两类

Worker 节点运行 DataNode，NodeManager 等守护进程

Master 节点运行 NameNode，SecondaryNameNode，或者 ResourceManager 等守护进程

在小型集群中，NameNode 和 ResourceManager 经常运行在同一台机器中；

甚至有些情况 SecondaryNameNode 也运行在同一台机器上

至少将 NameNode 的元数据拷贝到一台独立的机器上是很重要的

1.7.2. 基本集群配置

Hadoop 集群包含多个组件，在规划集群时首先应该考虑如何划分各个组件所在节点位置；

剩余395页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

zhhlk

粉丝: 63
资源: 32

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

大数据Hadoop、MapReduce、Hive项目实践

大数据框架（HADOOP、HIVE、HBASE）优化和简历项目编写（视频+讲义+笔记）

hadoop+hive+mapreduce的java例子

大数据技术之Hive.pptx

Hadoop-MapReduce实践示例

大数据--Hadoop MapReduce

大数据技术之Hadoop（MapReduce）

MapReduce 实践数据

HadoopMapReduce:数据集链接的Hadoop MapReduce实践问题

大数据视频_Hive视频教程（上）

hadoop+hive+finebi笔记.rar

google大数据论文 mapreduce hdfs bigtable

大数据:hive1

4-0大数据技术之Hadoop（MapReduce） (1)

大数据技术之Hadoop（MapReduce）.doc

大数据技术之Hadoop（MapReduce）.pdf

大数据Hadoop核心之MapReduce详解

尚硅谷大数据技术之Hadoop（MapReduce）1

大数据hadoop,spark教程.zip

Hadoop MapReduce Cookbook

数据科学与大数据技术hive安装包

实验项目 MapReduce 编程

大数据技术 Hadoop开发者第二期 MapReduce HDFS Hive Mahout HBase 共64页.pdf

Hadoop-MapReduce:一个使用Hadoop分析大数据的应用程序

大数据技术之Hadoop（MapReduce）.docx

3大数据技术之Hadoop（MapReduce）.doc

Hadoop大数据平台之谷歌MapReduce

Hadoop,Hive,Hbase等框架详解

hadoop+ha+hive+mapreduce

最新资源