没有合适的资源?快使用搜索试试~ 我知道了~
1.Apachekylin是一个开源的海量数据分布式预处理引擎。它通过ANSI-SQL接口,提供基于hadoop的超大数据集(TB-PB级)的多维分析(OLAP)功能。2.kylin可实现超大数据集上的亚秒级(sub-secondlatency)查询。1)确定hadoop上一个星型模式的数据集。2)构建数据立方体cube。3)可通过ODBC,JDBC,RESTfulAPI等接口在亚秒级的延迟内查询相1.表(Table):表定义在hive中,是数据立方体(Datacube)的数据源,在buildcube之前,必须同步在kylin中。2.模型(model):模型描述了一个星型模式的数据结构,它定义
资源推荐
资源详情
资源评论
【干货分享】【干货分享】ApacheKylin:一个:一个OLAP利器利器
Apache Kylin 简介
1. Apache kylin 是一个开源的海量数据分布式预处理引擎。它通过 ANSI-SQL 接口,提供基于 hadoop 的超大数据集(TB-PB
级)的多维分析(OLAP)功能。
2. kylin 可实现超大数据集上的亚秒级(sub-second latency)查询。
1)确定 hadoop 上一个星型模式的数据集。
2)构建数据立方体 cube。
3)可通过 ODBC, JDBC,RESTful API 等接口在亚秒级的延迟内查询相
Apache Kylin 核心概念
1. 表(Table ):表定义在 hive 中,是数据立方体(Data cube)的数据源,在 build cube 之前,必须同步在 kylin 中。
2. 模型(model): 模型描述了一个星型模式的数据结构,它定义了一个事实表(Fact Table)和多个查找表(Lookup Table)
的连接和过滤关系。
3. 立方体(Cube):它定义了使用的模型、模型中的表的维度(dimension)、度量(measure , 一般指聚合函数,如:
sum、count、average 等)、如何对段分区( segments partition)、合并段(segments auto-merge)等的规则。
4. 立方体段(Cube Segment):它是立方体构建(build)后的数据载体,一个 segment 映射 hbase 中的一张表,立方体实
例构建(build)后,会产生一个新的 segment,一旦某个已经构建的立方体的原始数据发生变化,只需刷新(fresh)变化的
时间段所关联的 segment 即可。
5. 作业(Job):对立方体实例发出构建(build)请求后,会产生一个作业。该作业记录了立方体实例 build 时的每一步任务
信息。作业的状态信息反映构建立方体实例的结果信息。如作业执行的状态信息为 RUNNING 时,表明立方体实例正在被构
建;若作业状态信息为 FINISHED ,表明立方体实例构建成功;若作业状态信息为 ERROR ,表明立方体实例构建失败!作
业的所有状态如下:
1)NEW - This denotes one job has been just created.
2)PENDING - This denotes one job is paused by job scheduler and waiting for resources.
3)RUNNING - This denotes one job is running in progress.
4)FINISHED - This denotes one job is successfully finished.
5)ERROR - This denotes one job is aborted with errors.
6)DISCARDED - This denotes one job is cancelled by end users.
Apache Kylin 工作机制
1. Apache kylin 能提供低延迟(sub-second latency)的秘诀就是预计算,即针对一个星型拓扑结构的数据立方体,预计算多
资源评论
weixin_38517122
- 粉丝: 7
- 资源: 907
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功