进一步认识大数据(5)
胡经国
十、关于大数据的几个重要判断和观点
有关文献对关于大数据的几个重要判断和观点进行了论述。为了进一步认
识大数据,现将其介绍如下,供读者参考。
1、大数据思维源于数据挖掘又高于数据挖掘
大数据思维源于数据挖掘( Data Mining)又高于数据挖掘。数据挖掘与大
数据的关系密不可分。
数据挖掘借助计算机从海量数据中发现隐含的知识和规律,是一门融合了
计算机、统计等科技知识的交叉学科。作为其核心的人工智能、机器学习、模
式识别等理论,在上世纪 90 年代推行知识管理时已经取得显著进展。从本质上
看 , 大 数 据 带 来 的 思 维 变 革 以 及 一 些 数 据 驱 动 类 的 商 业 智 能 ( Business
Intelligence)模式创新,都是数据挖掘理论的延伸,因此将大数据带来的思维
大变革表达为“数据挖掘相对于数理统计带来的思维变革”或许更加准确。
例如,因果关系是数理统计中的重要内容,基于完善的数学理论,其代表
是回归模型;而相关关系则是数据挖掘中的重要内容,基于强大的机器运算能
力,其代表是神经网络、决策树算法。这就使得人们不需要了解背后复杂的因
果逻辑,也可以获得良好的分析和预测结果。
但是,数据挖掘通常面向结构化数据;而大数据则还涉及数据的采集、提
取、转化、存储等,而且必然要面对非结构化数据。
2、大数据突破主要来自技术革新
大数据的突破主要来自技术革新。这表现在对大数据的海量( Volume)、
多样(Variety)、快速(Velocity)等特点的适应和运用上。
⑴、存储数据从结构化向半结构化和非结构化拓展
存储数据从结构化向半结构化和非结构化拓展,如基于 Web 异构环境下的
网页、文档、报表、多媒体等。这就导致了一批基于非结构化数据的专有挖掘
算法的产生和发展。
⑵、数据库从关系型向非关系型和分布式拓展
数据库从关系型向非关系型和分布式拓展。关系型数据库是以行和列的形
式组织起来的结构化数据表,如 Excel 表格;其缺点是存储容量小、数据扩展
性和多样性差。而新的非关系型、分布式数据库则可以弥补上述不足。
⑶、数据处理从静态向实时交互拓展
1
评论0
最新资源