数据规范建模详解 数据规范建模是大数据和数据中台的重要组成部分,对数据进行分层和规范设计,能够提高数据的可维护性、可扩展性和可重用性。本文将详细介绍数据规范建模的流程和方法。 数据规范建模流程: 1. DW 分层模型设计 数据平台将数据分为操作数据层(ODS)、公共维度模型层(CDM)(其中公共维度模型层包括明细数据层(DWD)和汇总数据层(DWS))、应用数据层(ADS)分层设计的优点: * 数据结构清晰:每一个数据分层都有它的作用域,使用表的时候更方便的定位和理解 * 数据血缘追踪:简单来讲,我们最终给业务呈现的是一张能直接使用的业务表,但它的来源有很多,如果有一张来源表出问题了,我们希望能够快速准确的定位到问题并清楚他的危害范围 * 减少重复开发:规范数据分层,开发一些通用的中间数据层(CDM),能够极大的减少重复计算 * 复杂问题简单化:将一个复杂的问题分解成多个步骤完成,每一层只处理单一的步骤,比较简单易懂,便于维护数据的准确性,如果数据出现问题,不需要修复全部数据,只需要从有问题的步骤开始修复 * 屏蔽原始数据的异常:屏蔽业务的影响,不必改一次业务就接入一次数据 2. 每个数据层的作用 2.1 ODS 层将来源于系统的数据几乎无处理的存放在数据仓库中。主要的功能: * 数据同步:结构化数据增量或全量同步到数据计算平台 * 结构化:非结构化数据(日志)进行结构化处理并存储到数据计算平台 * 历史累积、清洗:根据业务需求、稽核、审计要求保存历史数据以及进行数据清洗 2.2 CDM 层存放明细事实数据、维表和公共指标汇总数据CDM 层又细分为 DWD 层、DWS 层、DIM 层分别是明细宽表层、公共汇总数据层、维表。采用维度建模方法理论(更多采用维度退化),减少事实表和维度表的关联,目的是划分清楚实现维表到事实表,强化明细事实表的易用性和通用性。在 DWS 层,加强指标的维度退化(分离),采用宽表化手段构建公共指标数据层,提升公共指标的复用性,减少重复加工。 2.3 ADS 层根据业务需求存放数据产品个性化的统计指标数据,根据 CDM 层和 ODS 层加工生成。 3. 数据规范定义设计(3NF-3 范式) 规范定义:以维度建模作为理论基础,构建总线矩阵,划分及定义数据域、业务过程、维度、原子指标(度量)、修饰类型、修饰词、时间周期、衍生指标等。一般指标组成体系可以划分为:原子指标、衍生/派生指标、修饰类型、修饰词、时间周期 例如:支付订单金额 + 最近 7 天 + 门店 POS 销售 = 近 7天门店成交额 3.1 表命名规范 3.1.1 ODS ODS = ods[业务库名]{业务库原始表名}[_detail] 示例: * 记录用户详细信息:ods_s_users_detail * 记录新增的商品成交订单:ods_s_biz_order_detail * 记录新增的物流订单:ods_s_logistics_order_detail * 记录新增的支付订单:ods_s_pay_order_detail 3.1.2 外表映射命名 外 表 映 射 命 名= ods[ 业 务 库 名 ]{ 业 务 库 原 始 表名}[_detail_mapping] 示例: * 记录新增支付订单信息:ods_s_pay_order_delta_mapping 3.1.3 DW DWD = dwd{主题缩写}{业务过程缩写}[自定义标签缩写]{单分区增量全量标识} 示例: * 交易商品信息事实表:dwd_asale_trd_itm_di * 交易会员信息事实表:ods_asale_trd_mbr_di * 交易订单信息事实表:dwd_asale_trd_ord_di 3.1.4 DWS DWS = dws{数据域缩写}[自定义标签缩写]_{刷新周期标识} 示例: * 买 家 粒 度 交 易 分 阶 段 付 款 一 日 汇 总 事 实 表 :dws_asale_trd_byr_subpay_1d * 买 家 粒 度 分 阶 段 付 款 截 至 当 日 汇 总 表 :dws_asal
剩余9页未读,继续阅读
- 粉丝: 0
- 资源: 2
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助