【干货分享】ApacheKylin：一个OLAP利器资源-CSDN文库

9 浏览量 2021-02-24 05:03:40 上传评论收藏 283KB PDF 举报

资源推荐

资源详情

资源评论

【干货分享】【干货分享】ApacheKylin：一个：一个OLAP利器利器

Apache Kylin 简介

1. Apache kylin 是一个开源的海量数据分布式预处理引擎。它通过 ANSI-SQL 接口，提供基于 hadoop 的超大数据集（TB-PB

级）的多维分析（OLAP）功能。

2. kylin 可实现超大数据集上的亚秒级（sub-second latency）查询。

1）确定 hadoop 上一个星型模式的数据集。

2）构建数据立方体 cube。

3）可通过 ODBC, JDBC,RESTful API 等接口在亚秒级的延迟内查询相

Apache Kylin 核心概念

1. 表（Table ）：表定义在 hive 中，是数据立方体（Data cube）的数据源，在 build cube 之前，必须同步在 kylin 中。

2. 模型（model）: 模型描述了一个星型模式的数据结构，它定义了一个事实表（Fact Table）和多个查找表（Lookup Table）

的连接和过滤关系。

3. 立方体（Cube）：它定义了使用的模型、模型中的表的维度（dimension）、度量（measure , 一般指聚合函数，如：

sum、count、average 等）、如何对段分区（ segments partition）、合并段（segments auto-merge）等的规则。

4. 立方体段（Cube Segment）：它是立方体构建（build）后的数据载体，一个 segment 映射 hbase 中的一张表，立方体实

例构建（build）后，会产生一个新的 segment，一旦某个已经构建的立方体的原始数据发生变化，只需刷新（fresh）变化的

时间段所关联的 segment 即可。

5. 作业（Job）：对立方体实例发出构建（build）请求后，会产生一个作业。该作业记录了立方体实例 build 时的每一步任务

信息。作业的状态信息反映构建立方体实例的结果信息。如作业执行的状态信息为 RUNNING 时，表明立方体实例正在被构

建；若作业状态信息为 FINISHED ，表明立方体实例构建成功；若作业状态信息为 ERROR ，表明立方体实例构建失败！作

业的所有状态如下：

1）NEW - This denotes one job has been just created.

2）PENDING - This denotes one job is paused by job scheduler and waiting for resources.

3）RUNNING - This denotes one job is running in progress.

4）FINISHED - This denotes one job is successfully finished.

5）ERROR - This denotes one job is aborted with errors.

6）DISCARDED - This denotes one job is cancelled by end users.

Apache Kylin 工作机制

1. Apache kylin 能提供低延迟（sub-second latency）的秘诀就是预计算，即针对一个星型拓扑结构的数据立方体，预计算多

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

内容反馈

weixin_38517122

粉丝: 7
资源: 907

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip