没有合适的资源?快使用搜索试试~ 我知道了~
如何保障数仓数据质量.pdf
需积分: 1 1 下载量 42 浏览量
2024-04-10
10:10:01
上传
评论
收藏 1.01MB PDF 举报
温馨提示
试读
13页
如何保障数仓数据质量.pdf
资源推荐
资源详情
资源评论
导读
文|傅宇康
有赞数据报表中心为商家提供了丰富的数据指标,包括30+页面,100+数据报表以及400+不同类型的数据指标,它
们帮助商家更合理、科学地运营店铺,同时也直接提供分析决策方法供商家使用。并且,每天在跑的底层任务和涉
及的数据表已经达到千级别。面对如此庞大的数据体系,作为测试如何制定质量保障策略呢?这篇文章将从:1.有
赞数据链路 、2.数据层测试、 3.应用层测试、 4.后续规划这四个方面展开。
一、有赞数据链路
1、数据链路介绍
首先介绍有赞的数据总体架构图:
自顶向下可以大致划分为应用服务层、数据网关层、应用存储层、数据仓库,并且作业开发、元数据管理等平台为
数据计算、任务调度以及数据查询提供了基础能力。
如何保障数仓数据质量?
以上对整体架构做了初步的介绍,对于质量把控来说,最核心的两个部分是:数据仓库以及数据应用部分。因为这
两部分属于数据链路中的核心环节,相对于其他层级而言,日常改动也更为频繁,出现问题的风险也比较大。
二、数据层测试
1、整体概览
首先,针对数据层的质量保障,可以分成三个方面:数据及时性、完整性、准确性。
2、 数据及时性
数据及时性,顾名思义就是测试数据需要按时产出。及时性重点关注的三个要素是:定时调度时间、优先级以及数
据deadline。其中任务的优先级决定了它获取数据计算资源的多少,影响了任务执行时长。数据deadline则是数据最
晚产出时间的统一标准,需要严格遵守。
这三要素中,属于“普世规则”且在质量保障阶段需要重点关注的是:数据deadline。那么我们基于数据deadline,针
对及时性的保障策略就可分为两种:
监控离线数据任务是否执行结束。这种方式依赖于有赞作业开发平台的监控告警,若数据任务在deadline时间点
未执行完成,则会有邮件、企微、电话等告警形式,通知到相应人员。
检查全表条数或者检查分区条数。这种方式依赖接口自动化平台,通过调用dubbo接口,判断接口返回的数据指
标是否为0,监控数据是否产出。
其次我们可以关注失败、重试次数,当任务执行过程中出现多次失败、重试的异常情况,可以抛出告警让相关人员
感知。这部分的告警是对deadline告警的补充,目前在有赞作业开发平台上也有功能集成。
3、数据完整性
数据完整性,顾名思义看数据是不是全,重点评估两点:数据不多、数据不少。
数据不多:一般是检查全表数据、重要枚举值,看数据有没有多余、重复或者数据主键是否唯一。
数据不少:一般是检查全表数据、重要字段(比如主键字段、枚举值、日期等),看字段的数值是否为空、
为null等。
可见数据完整性和业务本身关联度没有那么密切,更多的是数仓表的通用内容校验。所以从一些基础维度,我们可
以将测试重点拆成表级别、字段级别两个方向。
剩余12页未读,继续阅读
资源评论
资深工程师为你打call
- 粉丝: 109
- 资源: 70
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功