数据治理那些事(10) 元数据 5
上节讲了大数据平台获取元数据的接口和方式,本节从功能上如何获取的.针对 ETL 工具实
现的数据处理过程,应提供这些 ETL 工具的元数据自动获取功能;针对 HiveQL 脚本或者
HBASESHELL 脚本实现的数据处理过程,应提供这些脚本的自动解析元数据获取功能;
针对 MapReduce 编程、HBASEJA VA 接口编程等复杂编程方式实现的数据处理过程,应提
供相应的数据处理过程元数据手工录入功能;
能够将自动获取和手工录入的 Hadoop 集群数据处理过程元数据结合在一起,转换成满足
核心元模型规范的格式,并写入统一的元数据库中;
能够记录每次获取 Hadoop 集群数据处理过程元数据的任务执行日志,并对执行过程中出
现的异常情况进行提示。
元数据存储层
CWM 是 OMG 组织定义的数据仓库和相关系统的国际元数据标准,给出了各种元数据结
构的标准定义。CWM 标准的目的在于:使数据仓库和商业智能软件的元数据在异构的数
据分析工具、数据仓库平台、元数据存储库等系统之间进行交互。
核心元模型是以 CWM 为基础扩展形成的,针对的物理模型、逻辑模型、数据处理过程、
接口单元、指标和维度编码等主要实体进行精确定义,并要求统一遵循的元模型。定义核
心元模型的目的是建立的统一元数据管理标准,为元数据管理的功能层与应用层解耦、为
标准的元数据交换和相互理解提供统一的语义基础。
核心元模型参照表是对核心元模型中的枚举类型属性进行枚举值定义的编码表。参照表为
枚举类型属性的每个枚举值定义了唯一的编码,并明确该编码的语义,是核心元模型标准
化定义的重要组成部分。
核心元模型的标准化定义包括如下 3 个方面:
元数据对象 ID 与命名标准化
定义元数据对象 ID 的编号规则和管理要求,定义元数据对象的命名规则。
核心元模型的属性与关系定义标准化
定义核心元模型与 CWM 的派生关系,明确从 CWM 继承的属性与关系;定义核心元模型
基于 CWM 进行扩展的属性与关系,明确这些属性与关系的语义。
核心元模型的参照表标准化
对核心元模型的关键属性定义参照表,明确每个属性取值的标准化编码,避免属性编码的
理解歧义。
评论0
最新资源