数据的全生命周期管理
作者:丁海骜
来源:《数字商业时代》2021 年第 12 期
“首先我们相信:数据可以让今天我们认为不可能的事情,通过对数据发掘和数据分析,
让这个事情在明天变成可能。”2021 年底,履新 8 个月的 Cloudera 大中华区区域副总裁王刚
(Galen)在一场活动上,谈到专注于大数据软件平台的、基于开源社区的软件公司,Cloudera
对大数据有三个基本的理解:“第二,我们认为,人在大数据应用过程中是非常具有决定性的
因素:我们可以让机器帮我们做很多事情,让他们做正确的事情,但是是否正确,要由人来判
断,所以我们可以赋予人对大数据应用做更深的洞察和发现;第三,我们确认,现在数据无处
不在:可以在你的手机上,在你的笔记本上,在公有云上,也可以在机房里面……在任何场合
下,我们都可能会用到 AI、大数据分析。由于大数据无处不在,所以无论在哪种环境下,我
们都可以让大数据继续帮助我们——Cloudera 支持在不同的使用环境中应用大数据技术。”
事实上,随着企业数字化转型进程的不断深入,“软件定义”的企业业务模式已经成为一种
被广泛认可的趋势,因此企业对于数据价值的认可,基本成为一种共识。而大数据应用作为一
种能够真正帮助企业发掘数据价值的手段,也已经被广泛认可。对于应用企业而言,他们的问
题往往集中在实际操作环节:企业该如何围绕自身的业务去设计、构建和维护一个有效的数据
价值发掘体系?大数据系统如何与企业的现实业务进行更密切的关联?
作为大数据应用平台的提供商,王刚谈到了一个“企业数据生命周期”的概念。
“数据实际上也有自己的生命周期:从出生到长大,再到成年、老年,最终离我们而去。
我们要做的,就是管理数据整个生命周期,从数据的获取到对数据进行丰富、整理,再到对数
据的展现、服务和预测等。”王刚将数据全生命周期分为 5 个具体的部分:收集、富华、报
告、服务和预测。
其中,对于企业用户而言,数据的来源是非常多元的,“可能在用户的手机上、设备上、
电脑上,或者是在后台业务系统里面”,因此企业需要构架一个数据流管理体系,完成对数据
进行完整、及时和充分的收集获取。然后第二步的“富化”过程,是利用数据工程,对收集到的
数据按照不同的格式、版本和样式,进行丰富、整理和处理,使其变得更加有序。完成数据富
化的数据就进入了“数据全生命周期”的第三个环节“报告”阶段,在这个环节,数据被存储在数
据仓库中,企业就可以根据自身的业务需求,对數据进行初级的应用:根据不同不同部门、不
同职位需求,将数据以各种报表和表格的形式,展示出来,让用户了解企业当前的相关业务情
况。“比如,企业管理者要了解公司过去的客户流失情况、业务增长情况,尤其是金融行业用
户常常需要通过数据了解当前的业务状况……这些都可以通过数据报表的形式分析出来,这也
评论0
最新资源