关于大数据和云计算平台的应用分析
摘要:随着大数据、云计算技术发展的日渐成熟和应用的日趋普及,诸多企业
在加大对相关领域投资的同时,对传统商业智能、大数据和云计算三者之间的关
系还普遍存在认知模糊的情况。在此背景下,文章在梳理三者关系的基础上,并
进一步提出了基于云计算的大数据统一分析平台设计架构。该平台架构一定程度
上有助于企业较好地处理数据关联度、数据结构复杂的数据,还能有效的减少数
据分析响应时间。
关键词:大数据;云计算平台;应用分析;平台架构
1.大数据和云计算、商业智能的关系
1.1 大数据和云计算的关系
大数据与云计算有着千丝万缕的联系。云计算是硬件资源的虚拟化,而大数
据是海量数据的高效处理。云计算注重资源分配,大数据注重资源处理。云计算
是一种应用模式,核心是数据处理技术;数据是资产,是不可或缺的基础资源,
需要大数据/云计算平台为数据资产提供存储、访问和计算的支撑;盘活数据资产,
使其为国家治理、企业决策、个人生活服务,是大数据的核心,也是云计算的最
终方向。在大数据和云计算的关系上,两者都关注对资源的调度。大数据处理可
以基于云计算平台(如 IaaS,容器)。大数据处理也可以作为一种云计算的服务,
如 AWS 的 EMR(Amazon Elastic MapReduce )阿里云的 ODPS(Open Data
ProcessingService)。
1.2 大数据和商业智能的关系
从概念的角度区分。BI(Business Intelligence)即商务智能,它是一套完整的
解决方案,用来将企业中现有的数据进行有效整合,快速准确地提供报表并提出
决策依据,帮助企业做出决策。BI 在数据架构中处于前端分析的位置,其核心作
用是对获取数据的多维度分析、数据的切片、上钻和下钻、cube 等。通过 ETL 数
据抽取、转化形成一个完整的数据仓库、然后对数据仓库的数据进行抽取,而后
是商业智能的前端分析和展示。大数据(big data)是一种信息资产,它是无法在
一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理
模式才能具有更强的决策力、洞察发现力和流程优化能力。简单而言,大数据更
偏重于发现、预测并印证的过程。
从数据来源的角度区分。大数据的数据来源包括内部数据和外部数据,有很
大一部分数据是包括音频、视频、图像在内的非结构化数据,或是半结构化数据。
这类数据通过大数据管理的方式进行整合,然后用 BI 的方法进行分析挖掘处理。
而 BI 的数据很多是来自数据库的结构化数据分析。在企业内部实施 BI 应用就是
为了可以更好的对数据进行分享和使用。
从技术的角度区分。传统 BI 的 ETL、数据仓库、OLAP、可视化报表技术,因
为解决不了海量数据(包括结构化与非结构化)的处理问题,BI 的很多功能都可
以被对应的大数据组件所替代。适用于大数据的技术,包括大规模并行处理
(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、
互联网和可扩展的存储系统。
从发展趋势的角度区分。随着企业 CRM、ERP、SCM 等应用系统的引入,企
业不仅仅关注事务处理过程,而更加注重有效利用企业的数据为准确和快速的决