数据治理是现代信息技术领域中的核心议题,特别是在大数据时代,数据的重要性日益凸显。万振龙在年数据库技术大会上探讨了数据治理与大数据平台设计的主题,强调了数据治理在应对信息孤岛、数据质量问题、数据应用管理和数据安全问题上的关键作用。
数据治理的背景和现状表明,随着大数据的发展,信息孤岛现象严重,导致数据无法有效共享和利用。同时,数据质量问题频发,如不准确、不完整或不一致的数据,影响了决策质量和业务效率。此外,数据安全问题日益严峻,对企业的数据资产构成威胁。目前,数据治理往往被视为维持现状的手段,而非主动管理的方式,而且存在历史包袱重、利益关系复杂、方案落地难、过度依赖技术工具等问题。
为改善这种状况,万振龙提出了数据治理策略。他认为,应获得高层的支持并引入外部专家,寻找痛点,确定治理起点,并将责任落实到个人。他还强调了持续性和绩效评估的重要性,以及制定实际可行的方法和标准,使用工具来辅助管理,并建立奖惩机制以促进执行。
在数据治理的具体实施上,元数据管理、主数据管理和数据质量管理是关键环节。元数据是描述数据的数据,包括技术元数据(描述数据的技术特性)、业务元数据(反映业务含义)和操作元数据(记录数据处理过程)。元数据管理有助于解决数据模糊性,可视化数据流动,追踪数据血缘,推动标准化,以及进行规范化数据审计。为了实现这些目标,需要先建立标准,实现全局治理,并尽快看到效果,同时确保高层领导的参与和业务部门的协作,建立奖惩机制,统一数据定义和模型设计的标准。
主数据管理是另一个重要方面,因为主数据是跨多个业务流程的核心数据,如客户、产品和供应商信息。它的有效管理能提高数据一致性,提升整体数据质量。而数据质量管理则关注数据的准确性、完整性、实时性和一致性,以及在查询、应用和模型设计中的质量标准。
大数据平台设计是实现这些治理策略的技术基础。平台需要支持数据整合、存储、处理、分析和访问,同时提供元数据管理、主数据管理以及数据质量管理的功能。在选择元数据管理工具时,要考虑其易扩展性、用户友好性、安全性、系统管理能力,以及发布、查询、报表和配置管理等功能,还需要进行早期试用和评估。
数据治理是一项涉及组织、流程、活动、机制和技术的综合工作,旨在确保数据的价值得到充分发挥,为企业的决策提供强有力的支持。通过有效的数据治理,企业可以优化数据资源,降低风险,提升竞争力,并在大数据时代中取得成功。