基于大数据平台的数据治理思路 摘要 数据治理是指将数据作为资产而展开的一系列具体化工作,是对数据的全生命周期管理 。本文从前期准备、实施路线、相关重要事项等方面阐述了基于大数据平台的数据治理 思路,最后,对基于大数据平台的数据治理进行了展望。 关键词 大数据;数据资产;主数据;数据标准;数据治理 引言 数据资源对于企业管理至关重要,保证高质量高可靠的运营数据,是企业经营获得成 功的关键因素。信息系统之间存在的数据标准不统一、数据质量不规范、数据格式互不 相容等问题,制约了数据的共享和使用。 1 大数据平台数据治理内容概述 数据治理是指将数据作为资产而展开的一系列具体化工作,是对数据的全生命周期管 理。也是对数据资产的实际管理和控制的过程。 数据资产往往分散分布在不同的部门。需要梳理汇总,并建立起数据资产的整体视图 ,或者说数据资产目录。 数据资产目录是以元数据为核心,按照分类、主题、应用多个角度对数据进行管理、 识别、定位、发现、评估、共享的数据组织管理工具。 2 基于大数据平台开展数据治理[1] 数据治理需要通过有连续性的计划和持续性的过程来实现。具体分为如下三部分内容 : 2.1 前期准备 (1)对数据治理现状进行评估,梳理存在的问题。 只有找到问题,才能解决问题。通过对数据治理现状进行评估,可以识别、量化存在 的问题和状态。 2.2 实施路线 大数据平台的规划是要搭建一个高质量、易于分析的数据集市,集中各业务系统数据 ,并搭建数据资产目录框架,在此基础上展开各现有接入系统数据的清洗、规范、治理 等工作。 目前数据治理流程包括下面的内容: (1)剖析、探查数据 要控制数据,就要理解数据。要对现有的数据进行治理,就必须要剖析、探查数据, 并形成文档,只有了解现有的数据,才能让数据治理更紧密地贴合业务数据的实际情况 。 (2)制定数据标准、计划和实施数据清洗 数据标准是对数据的技术和业务定义统一的规范,包含国际、国家、行业、公司几个 层级。它也是数据资产目录的核心,数据资产目录通过数据标准进行分类聚集,数据质 量通过数据标准进行设定,数据安全通过数据标准进行分级。 (3)搭建数据资产目录,梳理接入数据 数据资产目录为使用者提供统一的数据资产定位服务,实现数据资产共享交换和数据 服务的管理体系。 大数据平台的数据资产目录模型包括如下几个部分:数据资产目录;数据标准和数据 质量;各类数据资产,包括结构化数据、非结构化数据、数据接口、报表和模型;数据 资产的业务描述;数据资产轮廓、数据资产状态、数据资产安全、数据资产脱敏和数据 资产生命周期等。 数据资产目录是数据统一管理体系的核心,涵盖了数据管理体系的元数据管理、数据 质量管理和数据安全管理等功能。 主数据分散存储在企业各系统内,是对企业至关重要的核心业务实体的数据,比如客 户、供应商、员工等。治理主数据是一种持续的实践,企业通过制定准则、策略、流程 、业务规则和度量指标来管理主数据的质量。 元数据是关于数据的数据。它是有关数据项的特征的信息,如技术名称、业务名称、 位置、重要性、与企业中其他数据项的关系等。元数据可以用来记录数据血缘关系,跟 踪和记录数据血緣有利于数据源的追溯和查找数据存在的问题。 数据质量管理是数据管理中的一项关键的支撑流程,包括数据质量分析、识别数据异 常和定义业务需求相关规则。 大数据平台的目标是为了对内支撑,对外应用,而这两个核心目标的基础是数据质量 。而数据的可信需要持续的数据质量稽核,大数据平台的质量管理包含从制定规则、定 期检查、反馈问题、修正数据多个稽核流程[2]。 (4)建立数据模型,优化数据分析 搭建分类数据模型可以提高数据分析的效率。参考行业模型和基础数据标准,在大数 据平台上搭建数据分类模型,然后在数据模型的基础上进行数据整合,可以减少后续数 据整合难度,也可以避免数据方面的歧义,更好的保证数据一致性,使业务、技术、系 统之间的沟通更有效;数据的分类可以为系统间的数据分布提供依据,减少不一致和冗 余,以便于数据共享,减少数据重复录入、存储和加工。 2.3 数据治理的重要事项 (1)争取领导和相关部门的支持 数据治理计划失败的根源通常是缺少与业务的关联。技术部门只是数据的保管者,支 持和提供必要的业务部门的数据。得到领导和相关部门的支持对数据治理工作的开展非 常重要。 (2)自始至终关注安全与隐私管理 数据的安全至关重要,数据泄露意味着数据资产的流失。 大数据平台的基础是数据的汇聚,而汇聚的数据来自于各个业务部门,各个业务部门 在各自业务平台上对这些数据的安全负责,在汇聚到大数据平台之后,如何保证这些数 据在使用过程中的安全,是数据使用的必要条件,而数据管控的基础也正是数据安全。 高度重视数据安全工作,确保数据的可用性、完整性、机密性。建立健 数据治理是现代企业管理和运营的关键组成部分,特别是在大数据时代,数据已成为宝贵的资产。基于大数据平台的数据治理旨在提升数据资产的价值,确保其质量和可靠性,促进数据的高效利用。这一过程涉及数据的全生命周期管理,包括数据的收集、存储、处理、分析和分享。 数据治理始于前期准备,需要对当前的数据治理现状进行评估,识别存在的问题,如数据标准不统一、数据质量问题、格式差异等。这些问题可能阻碍数据的共享和有效利用,因此,治理工作必须从解决这些问题入手。 实施数据治理时,通常遵循一定的路线。大数据平台的构建旨在创建一个高质量的数据集市,集成来自不同业务系统的数据,并建立数据资产目录框架。这个框架将涵盖数据标准、数据质量控制、数据清洗和数据安全等多个方面。数据标准的制定是数据治理的核心,它确保数据在技术层和业务层面上的一致性。数据清洗则通过设定规则并执行清理过程,提高数据的准确性和一致性。 数据资产目录是数据治理的基石,它以元数据为中心,提供对数据资产的全面视图,包括数据分类、主题、应用等多个维度。元数据是关于数据的数据,用于记录数据的属性和关系,有助于追踪数据血缘,确保数据质量并加强数据安全管理。此外,主数据治理是确保关键业务实体数据准确性的关键步骤,如客户、供应商和员工信息。 数据质量管理是确保数据可信的关键,包括数据质量分析、异常检测和业务规则定义。通过持续的质量稽核,可以发现并纠正数据问题,保证数据支持决策的可靠性。同时,建立数据模型可以优化数据分析效率,通过数据分类和整合减少数据处理的复杂性,提高一致性,便于数据共享。 在实施数据治理的过程中,获得高层领导和相关业务部门的支持至关重要。数据治理不仅仅是技术问题,它需要与业务紧密关联,确保数据治理活动能够满足业务需求。同时,数据安全和隐私保护始终是关注的重点,需建立完善的数据安全政策,保护数据的可用性、完整性和机密性。 数据生命周期管理也是数据治理的重要一环,从数据的创建到废弃,每个阶段都需要适当的管理策略,确保数据在整个生命周期中的合规性和有效性。这包括数据的创建、存储、使用、更新、备份、恢复和销毁等环节。 基于大数据平台的数据治理是一个复杂且全面的过程,涉及到数据的各个层面,包括但不限于数据标准制定、数据质量保证、元数据管理、主数据治理、数据安全和生命周期管理。只有全面、有效地实施这些策略,企业才能充分发挥大数据的价值,实现数据驱动的决策和业务优化。
- 粉丝: 195
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助