没有合适的资源?快使用搜索试试~ 我知道了~
元数据管理与数据质量平台.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
1 下载量 24 浏览量
2022-06-09
04:15:06
上传
评论
收藏 1.58MB PDF 举报
温馨提示
试读
29页
元数据管理与数据质量平台.pdf元数据管理与数据质量平台.pdf元数据管理与数据质量平台.pdf元数据管理与数据质量平台.pdf元数据管理与数据质量平台.pdf元数据管理与数据质量平台.pdf元数据管理与数据质量平台.pdf元数据管理与数据质量平台.pdf元数据管理与数据质量平台.pdf
资源推荐
资源详情
资源评论
1.1.1 数据质量管理架构
数据质量问题一直是困扰数据仓库发挥积极作用的重要因素,在数据仓库建
设之初就应当从战略角度对数据质量体系进行规划。
1.1.1.1 数据质量基础定义
1.1.1.1.1 完整性
数据的完整性:为实现业务目的而设计组织的数据模型是否完全,是否覆盖
各个方面。例如:对一个业务,一个客户,一个产品,一个营销活动,一个客户
的性质等进行缺失考察。例如,客户名称有姓无名等,客户档案是否齐全,是否
客户所有业务都包含在内等。
完整性破缺主要发生在实体或对象的属性上和整个数据缺失两种情况。
完整性列表:
数据完整性,例如属性数据是否残缺,数值类型数据是否有空数据
业务完整性,例如是否有些业务没有包含在内,
是否涵盖所有生产系统和必要的外
部数据(例如竞争数据,保监会数据),是否覆盖所有客户(例如是否覆盖全部客户)
设计完备性, 设计是否完善
模型的完备性
数据字典完备性
映射关系完备性
业务规则是否完备
元数据完备性
加工层次完整性,加工过程中重要的中间数据是否保存,例如,有月统计数据,
考察日数据是否存在?
粒度完整性,重要经营指标各个粒度数据应该完善
1.1.1.1.2 有效性
指数据包含了一个有效的数据格式或值
1.1.1.1.3 一致性
数据的一致性是一个长期的困难。建立数据仓库的核心目的之一也是争取解决
这个问题。一致性定义为各个系统数据的统一,定义为数据仓库系统内数据定义
的统一。
一致性还表现在定义和口径的一致性。
数据库一致性,设计上是否有多种存储并存,各类统计口径是否统一
冗余和星型模型以及非第三范式一致性保证措施
和源数据一致性
1.1.1.1.4 唯一性
唯一性定义为系统数据定义的唯一性。由于数据仓库技术不一定受第三范式
约束,可能具有相当的冗余,但数据冗余不能违反定义的唯一性原则。对于哪些
既存在于关系数据库又在多维数据库中表现的数据和指标要特别注意,因为极容
易由于生成的时间差造成不一致。唯一性至少应当向系统的用户说明最终的数据
评判标准,数据的冗余和评判应当是元数据管理的重要内容。
1.1.1.1.5 正确性
数据正确是决策的关键,数据不正确,数据仓库项目就等于失败。但数据的正确性难以通过
自身检查。应该对重要数据和重要统计设立正确性检查。主要方法是:
➢ 数据自身统计检验
➢ 纵向对比检验
➢ 数据间按逻辑交叉检验
➢
横向对比校验
主要检查的内容:
ETL 过程正确性
加工过程正确性
数据整合正确性
模型正确性
展现正确性
查询正确性
核对过程是否充分
1.1.1.1.6 准确性
数据的正确性基础上才有意义讨论准确性。准确性包括精度和近似规则。
精度:系统定义的数据必须满足的精确性要求。例如,客户生日,可以精确
到年,或月,或日;全局收入统计或许到万元即可,也许到角分。
1.1.1.1.7 可用性
数据的可用性不是一个简单数据质量问题,而是系统质量问题,所有质量因
素都可能影响到可用性。数据的可用性主要体现在使用的效率上
1.1.1.1.8
时效性
1.1.1.1.9 清晰性
数据的清晰性考验系统元数据的精度。元数据必须清晰定义每一个数据的来
龙去脉。必须没有歧义。
1.1.1.1.10 充足性
数据的充足性定义在保证数据正确性和准确性基础上是否能对主要业务专题
提供足够的数据进行足够精度的分析需求。例如,进行时间序列分析通常需要至
少 36 个连续时间单位的数据,是否能够提供这个时间序列。
数据积累是否足够广泛,例如设计上虽然包含了足够宽广的业务领域,但每
项业务的数据是否真的收集到了足够多,
数据积累是否足够时间,充足性的特殊情况,是否收集了足够时间长度的数
据
元数据和字典数据的充足性,描述性是否足够
1.1.1.2 数据质量保证框架
1.1.1.2.1 战略
战略 – 从企业战略方向主动的考虑数据质量状况。
战略的意义:
➢ 提供了战略上的、可操作的数据质量保障方向
➢ 识别企业数据的关键因素
➢ 指明数据质量的范围
战略的范围:
➢ 策略:包含以下方面的内容,
任务定义
与业务的关系
切入点
剩余28页未读,继续阅读
资源评论
不吃鸳鸯锅
- 粉丝: 8258
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功