中国面向人工智能的数据治理
行业研究报告
©2022.3 iResearch Inc.
击破业务落地要害
2
©2022.3 iResearch Inc. www.iresearch.com.cn
摘要
来源:艾瑞研究院自主研究绘制。
实践-高频高价值应用及数据痛点:本篇报告选择金融、零售、医疗和工业四大典型
行业为切入点,分析呈现各行业的信息化建设阶段与高频高价值的AI应用场景,并
基于高频高价值AI应用引发的数据治理需求,对面向人工智能的数据治理体系搭建
给到建设指导。
展望-治理陷阱与趋势洞察:1)企业需避免落入“数据埋点大而全”的治理陷阱;
2)供需两侧需共同保证数据治理体系建设后的运营流转;3)企业需建立符合管理
现状及发展需求的数据安全治理框架,确保数据全周期的安全与合规;4)联邦学
习技术可带来数据安全合规线内的共同富裕;5)数据的“自治与自我进化”成为
未来数据处理发展的必由之路,为企业打造“治理+AI”体系的良性循环。
前言-数据与数据治理:如今数据不再局限于传统数字形式的认知,由结构化数据延
伸到半结构化、非结构化的数据范畴。数据治理越来越受到企业的普遍重视,在数
据生命周期的各个阶段通过相应的工具与方法论,使数据发挥出更大的价值,是实
现数据服务与应用必不可少的阶段。
参与-行业规模与受益圈立足点:数据治理与AI应用产品开始交汇融合,厂商参与更
加多元,咨询公司、数据服务提供商和人工智能产品服务商三方阵营构建行业竞合
格局,而“智”,即AI应用,为面向人工智能的数据治理服务的核心立足点。2021
年面向人工智能的数据治理市场规模约为40亿元,预计五年后规模将突破百亿。
主题-面向人工智能的数据治理:AI技术创新应用走向大规模落地,带动了大数据智
能市场的蓬勃发展。2021年大数据智能市场规模约为553亿元。目前传统数据治理
体系多停留在结构性数据化治理工作,尚难满足AI应用对数据的高质量要求。企业
可吸收传统体系的智慧沉淀,以AI应用数据需求为核心,优化建设“面向人工智能
的数据治理”体系,显著提升AI应用的规模化落地效果。
SMS
3
前言:数据与数据治理
1
主题:面向人工智能的数据治理
2
参与:行业规模与受益圈立足点
3
实践:高频高价值应用及数据痛点
4
案例:标杆企业与新锐势力
5
展望:治理陷阱与趋势洞察 6
4
©2022.3 iResearch Inc. www.iresearch.com.cn
数据:范围界定
信息经济的“货币”,早已不限于数字形式
数据的价值被不断认可,“数据资产化”已经成为了企业发展的重要组成部分。长期以来,数据被理解为以数字形式存储
的信息,而目前技术可以测量更多的事件和活动,人们可以收集、存储并分析这些不被视为传统数据的各类信息,如邮件、
图片、音视频等。数据可根据其特性及治理方法差异划分为内部数据与外部数据,结构化数据、非结构化数据与半结构化
数据,元数据与主数据等。
来源:艾瑞研究院自主研究绘制。
企业数据的主要类型
企业内部数据
按照数据
来源分类
在企业内部经营中产生的数据,在企业的业务流程中产生或在业务管理规定中定义,
受企业经营影响
企业外部数据
企业通过公共领域合规获得的数据,其产生、修改不受公司影响
按照数据
格式分类
结构化数据
可以存储在传统的关系型数据库中,用二维表结构来表达实现的数据,可以用关系
型数据库存储
非结构化数据
形式相对不固定,不方便用数据库二维逻辑表来表现的数据,通常存储在非关系型
数据库中,数据量通常较大
半结构化数据
介于结构化与非结构化之间,半结构化数据可以通过灵活的键值调整获取相应信
息,且数据的格式不固定
元数据
是描述数据的数据(描述性标签),描述了数据(如数据元素、数据模型)、相关
概念(如业务流程、应用系统、软件代码、技术架构)以及他们之间的联系
国家、币种、汇率
合同、项目、组织
日志文件、XML文档、
JSON文档、Email等
Excel表格、 SQL数据库
里的数据
文本、图片、HTML、各
类报表和音频、视频
主数据
描述企业核心实体的一组一致而统一的标识符和拓展属性,实体可包括现有或潜在
客户、产品、服务、员工、供应商、提供商、层次结构和会计科目表等
实时数据
是在收集后立即传递的信息,所提供信息的及时性没有延迟
数据治理
常用数据
类型
分类标准
定义以及特征
数据类型 举例
实体型组织、客户、人员
基本配置
数据标准、业务术语、指
标定义
实时OLAP场景下的数据
数据
抽象的内容,独立
时无意义
信息
经过收集和
整理的数据
智慧
经过人为
解读和经
验充实的
信息
产生辨析判断、
发明创造能力
知识
5
©2022.3 iResearch Inc. www.iresearch.com.cn ©2022.3 iResearch Inc. www.iresearch.com.cn
18
26
33
41
47
175
612
2142
2016 2017 2018 2019e 2020e 2025e 2030e 2035e
全球每年产生的数据量(ZB)
数据量:爆发式增长
基础设施“扩容”、IoT 广泛连接带来的数据量暴涨
数据时代来临,数据量的暴涨为企业数字化提供了基础支撑,大量的业务数据能够被采集、存储并最终创造经济效益。数
字化转型从头部企业的可选项,转变为更广泛企业的必选项。新变化为企业带来新机遇的同时,也带来了诸多挑战。很多
企业在前期的信息化建设中,缺乏统筹规划,为解决当下业务问题而按照垂直的、个性化的业务逻辑独立采购与部署IT系
统,导致企业内部形成多个数据孤岛。数据不规范、不一致、难以互联互通成为普遍问题,阻碍企业去充分发挥数据价值。
这种先建设后治理的常态,使得数据治理越来越受到企业的普遍重视,另一方面,新兴技术与应用场景的快速落地,也带
领数据治理需求在加速攀升。
注释:1ZB = 1024
4
GB
来源:中国信通院,Statista(2020),艾瑞研究院自主研究绘制。
来源:中国信通院,艾瑞研究院根据专家访谈与公开资料研究绘制。
2016-2035年全球产生的数据量 2015-2020年中国数字经济内部结构变化
CAGR=28.6%
74.3%
77.0%
77.4%
79.5%
80.2%
80.9%
25.7%
23.0%
22.6%
20.5%
19.8%
19.1%
2015 2016 2017 2018 2019 2020
产业数字化占比(%) 数字产业化占比(%)