没有合适的资源？快使用搜索试试~ 我知道了~

文库首页前端Node.js大数据技术原理及应用.pdf

大数据技术原理及应用.pdf

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

5星 · 超过95%的资源 1 下载量 68 浏览量 2022-10-26 08:40:07 上传评论收藏 568KB PDF 举报

温馨提示

试读

11页

。。。

资源推荐

资源详情

资源评论

大数据技术原理及应用

大数据处理架构—Hadoop 简介

Hadoop 项目包括了很多子项目，结构如下图

 Common

原名：Core，包含 HDFS, MapReduce 和其他公共项目，从 Hadoop 版本后，HDFS

和 MapReduce 分离出去，其余部分内容构成 Hadoop Common。Common 为其他子

项目提供支持的常用工具，主要包括文件系统、RPC(Remote procedure call) 和

串行化库。

 Avro

Avro 是用于数据序列化的系统。它提供了丰富的数据结构类型、快速可压缩的

二进制数据格式、存储持久性数据的文件集、远程调用 RPC 的功能和简单的动

态语言集成功能。其中，代码生成器既不需要读写文件数据，也不需要使用或

实现 RPC 协议，它只是一个可选的对静态类型语言的实现。Avro 系统依赖于模

式（Schema），Avro 数据的读和写是在模式之下完成的。这样就可以减少写入数

据的开销，提高序列化的速度并缩减其大小。

Avro 可以将数据结构或对象转化成便于存储和传输的格式，节约数据存储空间

和网络传输带宽，Hadoop 的其他子项目（如 HBase 和 Hive）的客户端和服务端

之间的数据传输。

 HDFS

HDFS：是一个分布式文件系统，为 Hadoop 项目两大核心之一，是 Google file

system（GFS）的开源实现。由于 HDFS 具有高容错性（fault-tolerant）的特

点，所以可以设计部署在低廉（ low-cost）的硬件上。它可以通过提供高吞吐

率（high throughput）来访问应用程序的数据，适合那些有着超大数据集的应

用程序。HDFS 放宽了可移植操作系统接口（POSIX，Portable Operating System

Interface）的要求，这样就可以实现以流的形式访问文件系统中的数据。

 MapReduce

Hadoop MapReduce 是针对谷歌 MapReduce 的开源实现，它是一种编程模型，用

于大规模数据集（大于 1TB）的并行运算。“映射”（map）、“化简”（reduce）等

概念和它们的主要思想都是从函数式编程语言中借来的。它使得编程人员在不

了解分布式并行编程的情况下也能方便地将自己的程序运行在分布式系统上。

MapReduce 在执行时先指定一个 map（映射）函数，把输入键值对映射成一组新

的键值对，经过一定的处理后交给 reduce，reduce 对相同 key 下的所有 value

进行处理后再输出键值对作为最终的结果。核心思想就是“分而治之”。

 HBase

HBase 是一个分布式的、面向列的开源数据库，该技术来源于 Google 的论文

“Bigtable：一个结构化数据的分布式存储系统”。如同 Bigtable 利用了 Google

文件系统（Google File System）提供的分布式数据存储方式一样， HBase 在

Hadoop 之上提供了类似于 Bigtable 的能力。HBase 不同于一般的关系数据库，

其一，HBase 是一个适合于存储非结构化数据的数据库；其二，HBase 是基于列

而不是基于行的模式。HBase 和 Bigtable 使用相同的数据模型。用户将数据存

储在一个表里，一个数据行拥有一个可选择的键和任意数量的列。由于 HBase

表示疏松的，用户可以给行定义各种不同的列。HBase 主要用于需要随机访问、

实时读写的大数据。

 Hive

Hive 最早是由 Facebook 设计的，是一个建立在 Hadoop 基础之上的数据仓库，

它提供了一些用于数据整理、特殊查询和分析存储在 Hadoop 文件中的数据集的

工具。Hive 提供的是一种结构化数据的机制，它支持类似于传统 RDBMS 中的 SQL

语言来帮助那些熟悉 SQL 的用户查询 Hadoop 中的数据，该查询语言称为 Hive QL。

与此同时，那些传统的 MapReduce 编程人员也可以在 Mapper 或 Reducer 中通过

Hive QL 查询数据。Hive 编译器会把 Hive QL 编译成一组 MapReduce 任务，从

而方便 MapReduce 编程人员进行 Hadoop 应用的开发。

 Pig

Pig 是一个对大型数据集进行分析和评估的平台。Pig 最突出的优势是它的结构

能够经受住高度并行化的检验，这个特性让它能够处理大型的数据集。目前，

Pig 的底层由一个编译器组成，它在运行的时候会产生一些 MapReduce 程序序列，

Pig 的语言层由一种叫做 Pig Latin 的正文型语言组成。

剩余10页未读，继续阅读

评论收藏

内容反馈

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

m0_61309969

2023-12-13

资源太好了，解决了我当下遇到的难题，抱紧大佬的大腿~

春哥111

粉丝: 1w+
资源: 5万+

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

大数据技术原理及应用.pdf

大数据技术原理及应用(20220212184941).pdf

《大数据技术原理与应用》课程标准.pdf

《大数据技术原理和应用操作》试卷A卷及答案.pdf

大数据技术原理及应用整理.pdf

大数据技术原理与应用

大数据技术原理与应用：概念、存储、处理、分析与应用 完整高清PDF

教学大纲厦门大学-林子雨-大数据技术原理与应用

数据库系统原理及应用教程_第三版

大数据技术原理与应用(第2版)

《大数据技术原理与应用概念、存储、处理、分析与应用》(第2版).扫描版.厦门大学.林子雨.PDF高清

大数据技术原理与应用.rar

大数据技术原理与应用教材配套ppt

大数据技术原理与应用 林子雨版 课后习题答案（第3版）.xdf

大数据技术原理与应用第二版（林子雨） 5个实验答案

大数据技术原理及应用[整理].pdf

大数据技术原理与应用课程标准.pdf

《大数据技术原理与操作应用》第7章习题答案.pdf

厦门大学-林子雨-大数据技术原理与应用

林子雨-大数据技术原理与应用-教材配套讲义PPT（2015年6月第1.0版）

厦门大学-林子雨-大数据技术原理与应用（第2版教材）-第2章

hadoop大数据平台技术与应用 --课后习题参考答案.pdf

林子雨大数据技术原理及应用第五章课后作业答案.pdf

厦门大学林子雨老师主讲大数据教程.rar

KepOPC DA2UA实现从OPCDA到OPCUA的转换及读写互操作

Midjourney-关键词大全

“未来工厂”建设导则.pdf

2024年Java基础面试题，附带详细解析答案

腾讯QQ秀立项调研PPT

最新资源

大数据技术原理与应用：概念、存储、处理、分析与应用完整高清PDF

大数据技术原理与应用林子雨版课后习题答案（第3版）.xdf