没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
Flink + Iceberg + 对象存储,构建数据湖方案
阿里云云栖号
发布时间: 2021-07-16 10:49 阿里云计算有限公司
播报文章
本文整理自 Dell 科技集团高级软件研发经理孙伟在 4 月 17 日 上海站 Flink Meetup
分享的《Iceberg 和对象存储构建数据湖方案》,文章内容为:
1.数据湖和 Iceberg 简介
2.对象存储支撑 Iceberg 数据湖
3.演示方案
4.存储优化的一些思考
一、数据湖和 Iceberg 简介
1. 数据湖生态
如上图所示,对于一个成熟的数据湖生态而言:
首先我们认为它底下应具备海量存储的能力,常见的有对象存储,公有云存储以及
HDFS;
在这之上,也需要支持丰富的数据类型,包括非结构化的图像视频,半结构化的
CSV、XML、Log,以及结构化的数据库表;
除此之外,需要高效统一的元数据管理,使得计算引擎可以方便地索引到各种类型数
据来做分析。
最后,我们需要支持丰富的计算引擎,包括 Flink、Spark、Hive、Presto 等,从而方
便对接企业中已有的一些应用架构。
2. 结构化数据在数据湖上的应用场景
作者最新文章
Spring Boot Serverless 实战系
列“架构篇”|光速入门函数计算
从“香农熵”到“告警降噪”,如何
提升告警精度?
KubeDL 0.4.0 - Kubernetes AI
模型版本管理与追踪
相关文章
JuiceFS 缓存策略详解
「金猿产品展」InsightOne——
让数据价值安全释放
海事数据服务系统上线运行 助力
海事业务高质量发展
百度首页
倍鲁奇
上图为一个典型的数据湖上的应用场景。
数据源上可能会有各种数据,不同的数据源和不同格式。比如说事物数据,日志,埋
点信息,IOT 等。这些数据经过一些流然后进入计算平台,这个时候它需要一个结构
化的方案,把数据组织放到一个存储平台上,然后供后端的数据应用进行实时或者定
时的查询。
这样的数据库方案它需要具备哪些特征呢?
首先,可以看到数据源的类型很多,因此需要支持比较丰富的数据 Schema 的组织;
其次,它在注入的过程中要支撑实时的数据查询,所以需要 ACID 的保证,确保不会
读到一些还没写完的中间状态的脏数据;
最后,例如日志这些有可能临时需要改个格式,或者加一列。类似这种情况,需要避
免像传统的数仓一样,可能要把所有的数据重新提出来写一遍,重新注入到存储;而
是需要一个轻量级的解决方案来达成需求。
Iceberg 数据库的定位就在于实现这样的功能,于上对接计算平台,于下对接存储平
台。
3. 结构化数据在数据湖上的典型解决方案
对于数据结构化组织,典型的解决方式是用数据库传统的组织方式。
企业信用“三无”修复!禅城“区块
链”应用入选全国优秀案例
数据误用、泄露危害大!企业如
何搭上大数据安全管理“快车”?
百度首页
倍鲁奇
如上图所示,上方有命名空间,数据库表的隔离;中间有多个表,可以提供多种数据
Schema 的保存;底下会放数据,表格需要提供 ACID 的特性,也支持局部 Schema
的演进。
4. Iceberg 表数据组织架构
快照 Metadata:表格 Schema、Partition、Partition spec、Manifest List 路径、当前
快照等。
Manifest List:Manifest File 路径及其 Partition,数据文件统计信息。
Manifest File:Data File 路径及其每列数据上下边界。
Data File:实际表内容数据,以 Parque,ORC,Avro 等格式组织。
接下来具体看一下 Iceberg 是如何将数据组织起来的。如上图所示:
可以看到右边从数据文件开始,数据文件存放表内容数据,一般支持 Parquet、
ORC、Avro 等格式;
往上是 Manifest File,它会记录底下数据文件的路径以及每列数据的上下边界,方便
过滤查询文件;
再往上是 Manifest List,它来链接底下多个 Manifest File,同时记录 Manifest File 对
应的分区范围信息,也是为了方便后续做过滤查询;Manifest List 其实已经表示了快
照的信息,它包含当下数据库表所有的数据链接,也是 Iceberg 能够支持 ACID 特性
的关键保障。有了快照,读数据的时候只能读到快照所能引用到的数据,还在写的数
据不会被快照引用到,也就不会读到脏数据。多个快照会共享以前的数据文件,通过
共享这些 Manifest File 来共享之前的数据。
再往上是快照元数据,记录了当前或者历史上表格 Scheme 的变化、分区的配置、所
有快照 Manifest File 路径、以及当前快照是哪一个。
同时,Iceberg 提供命名空间以及表格的抽象,做完整的数据组织管理。
5. Iceberg 写入流程
百度首页
倍鲁奇
剩余13页未读,继续阅读
资源评论
心有猛虎-细嗅玫瑰
- 粉丝: 0
- 资源: 10
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功