没有合适的资源?快使用搜索试试~ 我知道了~
大数据技术原理及应用.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 68 浏览量
2022-10-26
08:40:07
上传
评论
收藏 568KB PDF 举报
温馨提示
试读
11页
。。。
资源推荐
资源详情
资源评论
大 数 据 技 术 原 理 及 应 用
大数据处理架构—Hadoop 简介
Hadoop 项目包括了很多子项目,结构如下图
Common
原名:Core,包含 HDFS, MapReduce 和其他公共项目,从 Hadoop 版本后,HDFS
和 MapReduce 分离出去,其余部分内容构成 Hadoop Common。Common 为其他子
项目提供支持的常用工具,主要包括文件系统、RPC(Remote procedure call) 和
串行化库。
Avro
Avro 是用于数据序列化的系统。它提供了丰富的数据结构类型、快速可压缩的
二进制数据格式、存储持久性数据的文件集、远程调用 RPC 的功能和简单的动
态语言集成功能。其中,代码生成器既不需要读写文件数据,也不需要使用或
实现 RPC 协议,它只是一个可选的对静态类型语言的实现。Avro 系统依赖于模
式(Schema),Avro 数据的读和写是在模式之下完成的。这样就可以减少写入数
据的开销,提高序列化的速度并缩减其大小。
Avro 可以将数据结构或对象转化成便于存储和传输的格式,节约数据存储空间
和网络传输带宽,Hadoop 的其他子项目(如 HBase 和 Hive)的客户端和服务端
之间的数据传输。
HDFS
HDFS:是一个分布式文件系统,为 Hadoop 项目两大核心之一,是 Google file
system(GFS)的开源实现。由于 HDFS 具有高容错性(fault-tolerant)的特
点,所以可以设计部署在低廉( low-cost)的硬件上。它可以通过提供高吞吐
率(high throughput)来访问应用程序的数据,适合那些有着超大数据集的应
用程序。HDFS 放宽了可移植操作系统接口(POSIX,Portable Operating System
Interface)的要求,这样就可以实现以流的形式访问文件系统中的数据。
MapReduce
Hadoop MapReduce 是针对谷歌 MapReduce 的开源实现,它是一种编程模型,用
于大规模数据集(大于 1TB)的并行运算。“映射”(map)、“化简”(reduce)等
概念和它们的主要思想都是从函数式编程语言中借来的。它使得编程人员在不
了解分布式并行编程的情况下也能方便地将自己的程序运行在分布式系统上。
MapReduce 在执行时先指定一个 map(映射)函数,把输入键值对映射成一组新
的键值对,经过一定的处理后交给 reduce,reduce 对相同 key 下的所有 value
进行处理后再输出键值对作为最终的结果。核心思想就是“分而治之”。
HBase
HBase 是一个分布式的、面向 列的开源数据库,该技术来源于 Google 的论文
“Bigtable:一个结构化数据的分布式存储系统”。如同 Bigtable 利用了 Google
文件系统(Google File System)提供的分布式数据存储方式一样, HBase 在
Hadoop 之上提供了类似于 Bigtable 的能力。HBase 不同于一般的关系数据库,
其一,HBase 是一个适合于存储非结构化数据的数据库;其二,HBase 是基于列
而不是基于行的模式。HBase 和 Bigtable 使用相同的数据模型。用户将数据存
储在一个表里,一个数据行拥有一个可选择的键和任意数量的列。由于 HBase
表示疏松的,用户可以给行定义各种不同的列。HBase 主要用于需要随机访问、
实时读写的大数据。
Hive
Hive 最早是由 Facebook 设计的,是一个建立在 Hadoop 基础之上的数据仓库,
它提供了一些用于数据整理、特殊查询和分析存储在 Hadoop 文件中的数据集的
工具。Hive 提供的是一种结构化数据的机制,它支持类似于传统 RDBMS 中的 SQL
语言来帮助那些熟悉 SQL 的用户查询 Hadoop 中的数据,该查询语言称为 Hive QL。
与此同时,那些传统的 MapReduce 编程人员也可以在 Mapper 或 Reducer 中通过
Hive QL 查询数据。Hive 编译器会把 Hive QL 编译成一组 MapReduce 任务,从
而方便 MapReduce 编程人员进行 Hadoop 应用的开发。
Pig
Pig 是一个对大型数据集进行分析和评估的平台。Pig 最突出的优势是它的结构
能够经受住高度并行化的检验,这个特性让它能够处理大型的数据集。目前,
Pig 的底层由一个编译器组成,它在运行的时候会产生一些 MapReduce 程序序列,
Pig 的语言层由一种叫做 Pig Latin 的正文型语言组成。
剩余10页未读,继续阅读
资源评论
- m0_613099692023-12-13资源太好了,解决了我当下遇到的难题,抱紧大佬的大腿~
春哥111
- 粉丝: 1w+
- 资源: 5万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功