Apache Kylin快速入门教程【中文高清版】
Apache Kylin是一款在Apache Hadoop上为超大规模数据集提供亚秒级查询能力的企业级大数据产品。它的核心是Apache Kylin,该技术自推出以来已经被多家公司采纳,用于解决大数据分析的挑战。Kyligence Analytics Platform(简称KAP)是基于Kylin技术的一个分析平台,提供便捷的大数据分析能力,支持标准SQL查询,适合业务用户、分析师和工程师使用。 Kyligence的架构设计允许用户通过Web界面自己构建数据集市,而无需掌握底层技术。其架构被设计成易于扩展的,可以将计算框架、数据源和底层存储等扩展到不同的技术领域,并提供可配置的优化解决方案。此外,Kyligence的部署是非侵入式的,不需要在现有的Hadoop集群中安装任何新组件,也不需要在数据节点或其他节点上安装代理,所有的集群操作都可以通过标准API完成,以最小化对现有集群的影响,并实现快速部署。 KAP的基本概念包括以下几个核心要素: - Cube:数据立方体,通过预计算将计算结果存储在特定维度值映射的空间中,实现快速获取结果。 - Partition:分区,允许用户定义分区日期或时间列,并根据这个列的值范围构建Cube,进而将Cube分为多个Segment。 - Cube Segment:一个Cube Segment对应特定时间范围内的数据计算结果,并对应一张HBase表。 - Aggregation Group:聚合组,是全部维度的一个子集。通过聚合组可以有效地降低Cube的组合数,将经常一起使用的维度组合在一起,以减少不必要的计算。 维度和度量是构建数据立方体时的关键组成部分,其中包括: - Mandatory(必需的维度):标记为必需的维度会认为所有查询都会包含此维度,因此在构建Cube时,所有不包含此维度的组合都会被剪枝(不计算)。 - Hierarchy(层级维度):用于处理多维数据中具有层级关系的维度。例如,如果维度A包含B和C,那么只需要计算A、AB、ABC的组合,其它如B、C、BC、AC的组合则不需要预先计算。 - Derived(衍生维度):通过维度表中的列值派生出来的维度,可以提供额外的信息,增强分析的深度。 KAP的运维和管理涉及到安装、配置、监控、安全控制等多方面的内容。在安装KAP时,需要满足一系列必备条件。启动和停止KAP的操作相对直接,同时还需要了解如何通过配置KAP的配置文件和参数来启用任务引擎、配置高可用(HA)等。安全控制也是一项关键内容,需要了解如何配置和管理用户的访问权限,集成LDAP等身份认证系统,以及如何通过访问控制列表(ACL)来管理用户权限。 KAP的日常维护包括监控系统的运行状态,诊断潜在的问题,以及进行日志报警。提供了一系列的诊断工具来辅助运维人员。在维护过程中,系统升级是不可避免的,需要掌握相关的升级方法和步骤,以及如何处理升级过程中可能遇到的常见问题。 为了保障数据安全和系统稳定运行,KAP提供了元数据备份和恢复的机制,以及垃圾清理的策略。同时,为了防止数据丢失和系统损坏,定期备份元数据是非常必要的,而系统升级可能带来的故障也需要通过备份来减少风险。 KAP还提供了一系列的文档和联系方式,以便在遇到问题时能够快速找到解决方案或寻求帮助。通过Kyligence官方网站提供的文档、联系方式、视频教程等内容,可以帮助用户快速入门并有效利用KAP进行大数据分析。
剩余33页未读,继续阅读
- 粉丝: 3
- 资源: 7
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助