实时数仓之 Kappa 架构与 Lambda 架构(建议收藏!).pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
实时数仓之 Kappa 架构与 Lambda 架构 本文主要介绍了实时数仓的架构演变过程,包括数据仓库概念、离线大数据架构、Lambda 架构和 Kappa 架构。下面是对每个架构的详细解释: 1. 数据仓库概念 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库概念是 Inmon 于 1990 年提出并给出了完整的建设方法。 2. 离线大数据架构 离线大数据架构是使用大数据工具来替代经典数仓中的传统工具。数据源通过离线的方式导入到离线数仓中,下游应用根据业务需求选择直接读取 DM 或加一层数据服务。 数据仓库从模型层面分为三层:ODS、DWD、DM。ODS 层是数据准备区,保存原始数据;DWD 层是数据仓库明细层,根据主题定义好事实与维度表,保存最细粒度的事实数据;DM 层是数据集市/轻度汇总层,在 DWD 层的基础之上根据不同的业务需求做轻度汇总。 3. Lambda 架构 Lambda 架构是由 Twitter 工程师南森·马茨提出的大数据处理架构。它具有很好的灵活性和可扩展性,也对硬件故障和人为失误有很好的容错性。Lambda 架构总共由三层系统组成:批处理层、速度处理层、服务层。 批处理层负责处理历史数据,速度处理层负责实时处理数据,服务层负责响应查询。Lambda 架构可以满足实时计算和批处理的需求,具有很好的扩展性和灵活性。 4. Kappa 架构 Kappa 架构是以实时事件处理为核心的架构,出现于实时业务需求不断增加和事件化的数据源不断增加的情况下。Kappa 架构可以实时处理数据,满足实时业务需求。 实时数仓的架构演变过程可以分为四个阶段:数据仓库概念、离线大数据架构、Lambda 架构和 Kappa 架构。每个架构都有其特点和优点,选择合适的架构取决于业务需求和数据特点。 在数据仓库建设中,数据分层是非常重要的一步。数据分层可以划清层次结构、追踪数据血缘、减少重复开发、把复杂问题简单化、屏蔽原始数据的异常等。典型的数仓存储是 HDFS/Hive,ETL 可以是 MapReduce 脚本或 HiveSQL。 在大数据应用中,Lambda 架构和 Kappa 架构是两种常用的架构。Lambda 架构具有很好的灵活性和可扩展性,可以满足实时计算和批处理的需求,而 Kappa 架构可以实时处理数据,满足实时业务需求。选择合适的架构取决于业务需求和数据特点。
剩余6页未读,继续阅读
- 粉丝: 0
- 资源: 34
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助