没有合适的资源?快使用搜索试试~ 我知道了~
Apache kylin的核心概念 Apache kylin的工作机制 Apache kylin的架构及核心组件 构建cube的维度和度量
资源推荐
资源详情
资源评论
Kylin
Apache kylin 的核心概念
表():表定义在 中,是数据立方体()的数据源,在
之前,必须同步在 中。
模型()模型描述了一个星型模式的数据结构,它定义了一个事实表(
:)和多个查找表(:)的连接和
过滤关系。
立 方 体 ( ) : 它 定 义 了 使 用 的 模 型 、 模 型 中 的 表 的 维 度
()、度量(一般指聚合函数,如:
、、 等)、如何对段分区()、合并段(
)等的规则。
立方体段(!):它是立方体构建()后的数据载体,一个
映射 中的一张表,立方体实例构建()后,会产生一个新的 ,一
旦某个已经构建的立方体的原始数据发生变化,只需刷新(")变化的时间段所关
联的 即可。
作业(#):对立方体实例发出构建()请求后,会产生一个作业。该作业记录
了立方体实例 时的每一步任务信息。作业的状态信息反映构建立方体实例的结果
信息。如作业执行的状态信息为 $%&&'&(时,表明立方体实例正在被构建;若作业状
态信息为 '&'!)*,表明立方体实例构建成功;若作业状态信息为 *$$+$,表明立方
体实例构建失败!作业的所有状态如下:
&* ,,-
.*&'&( ,,/"-
$%&&'&( ,-
'&'!)* ,"0-
*$$+$ ,/-
'!1$* ,-
Apache kylin 的工作机制
1能提供低延迟( )的秘诀就是预计算,即针对一个星型拓扑
结构的数据立方体,预计算多个维度组合的度量,然后将结果保存在 中,对外暴露
#2、+2、$1.' 的查询接口,即可实现实时查询。
数据立方体一般由 ) 中的一个事实表多个查找表组成。预计算的过程在 中就是
的 过程,如下图:
当前 1 构建()数据立方体,采用逐层算法(2)。未来的发
布中将采用快速立方体算法()。下面简单介绍一下逐层算法:
一个完整的数据立方体,由 & 立方体,& 3 立方体,& 4 维立方体,5
立方体这样的层关系组成,除了 & 立方体,基于原数据计算,其他层
的立方体可基于其父层的立方体计算。所以该算法的核心是 & 次顺序的 6$ 计算。
在 6$ 模型中, 由维度的组合的构成, 由度量的组合构成,当一个 6 读
到一个 对时,它会计算所有的子立方体(),在每个子立方体中,
6 从 中移除一个维度,将新 和 输出到 中。直到当所有层计算完毕,
才完成数据立方体的计算。过程如下图:
在数据立方体计算完毕后,有一个任务( ) ),其职责是将
输出的运算结果()转化成 ) 中的存储载体()),最终将 )
加载到 ) 表中便于查询。其中表的 / 由维度组合而成,维度组合对应的度量值构
成了 ",为了查询减少存储空间,会对 $/7 和 " 的值进行编码,
默认编码是 !。
整个数据立方体的构建流程如下:
Apache kylin 的架构及核心组件
1架构如下:
核心组件:
数 据 立 方 体 构 建 引 擎 ( 2 * ) : 当 前 底 层 数 据 计 算 引 擎 支 持
6$3、6$4、! 等。
$!:当前 采用的 1.'、#2、+2 接口提供 / 服务。
查询引擎(8*):$! 接收查询请求后,解析 9 语句,生成执行计划,
然后转发查询请求到 ) 中,最后将结构返回给ô$!。
去重算法[bitmap]
网址:https://kyligence.io/zh/blog/count-distinct-bitmap/
https://kyligence.io/zh/blog/usecaseofctrip1/
https://kyligence.io/zh/blog/usecaseofctrip2/
()表达式 17作为目前唯一同时支持精确与非精确去重查询的 +1.
引擎,非常好地覆盖了大数据上的去重需求。
场景引入
在大数据处理领域中,什么环节是你最不希望见到的?以我的观点来看,:是我最不
愿意见到的环节,因为一旦出现了非常多的:,就会占用大量的磁盘和网络'+,从而
导致任务进行得非常缓慢。而今天我们所讨论的去重分析,就是一个会产生非常多:
的场景,先来看以下场景:
剩余21页未读,继续阅读
资源评论
码动乾坤
- 粉丝: 58
- 资源: 31
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- QuestionTwo.java
- QuestionOne.java
- OA办公自动化管理系统(Struts1.2+Hibernate3.0+Spring2+DWR).rar
- 简历-求职简历-word-文件-简历模版免费分享-应届生-高颜值简历模版-个人简历模版-简约大气-大学生在校生-求职-实习
- 南京邮电大学数学实验:熟练掌握 Matlab 软件的基本命令和操作
- 简历-求职简历-word-文件-简历模版免费分享-应届生-高颜值简历模版-个人简历模版-简约大气-大学生在校生-求职-实习
- 2017校招真题校园招聘真题算法题(37道)Python源码.zip
- 基于单片机protues仿真的多功能自动饮水机系统设计(仿真图、源代码、演示视频)
- 论文《一种修复流程挖掘事件日志中缺失活动标签的深度学习方法》翻译
- 智慧电厂相关资料发电控制的方式
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功