大数据概念及应用将来
大数据概念是指大量的、高速增长的、多样化的、价值密度低的数据,这些数据的处理和挖掘将意味着新一波的生产率不断增长和消费者盈余浪潮的到来。麦肯锡认为,大数据时代已经到来,各个行业和领域都已经被数据给渗透了,目前数据已成为格外重要的生产因素了。
大数据概念最早是 IBM 定义的,将大数据的特征归纳为 4 个 “V”:
* 量 Volume:大数据的起始计量单位至少是 P(1000 个 T)、E(100 万个 T)或 Z(10 亿个T);
* 多样 Variety:数据类型繁多,例如网络日志、视频、图片、地理位相信息等等;
* 价 值 Value:价值密度低,商业价值高;
* 速 Velocity:处理速度快,是和传统的数据挖掘技术有着本质的不同。
大数据的应用将来非常广泛,对于很多行业而言,如何利用这些大规模数据正成为赢得竞争的关键。例如,对大量消费者供应产品或服务的企业,做小而美模式的中长尾企业,面临互联网压力之下必需转型的传统企业等等。
大数据技术描述了新一代技术和架构,目的是通过高速捕获、发觉和/或分析,经济高效地从品种繁多的大量数据中获益。当前共有两种顶层分析方法:
* 分析过去,不猜测将来(关联分析)
* 分析过去,猜测将来(具备监督式学习功能的猜测分析)
当前共有三种顶层的软件技术分类:
* 流数据分析和简单大事处理: ApacheStorm 和 IBM InfoSphere Streams 等某些处理方案供应“表述编程”框架,让数据经受转换、加入、分割、开窗等一系列处理步骤。
* 数据库:目前次要有两类数据库,即 SQL 和 NoSQL。SQL 数据库向 RDBMS 确认(即供应事务处理和引用完整性)。NoSQL 数据库供应各种表、schema 和接口,但不供应事务处理和引用完整性,与 SQL 数据库相比,它们的时延更小,吞吐量更大,数据存储容量也更大。
* Hadoop:流数据分析和数据库用于处理结构化数据,而 Hadoop 用于分析 Web 扫瞄日志、IT 系统日志等半结构化数据以及社交网络、Twitterfeed、图像、音频文件等非结构化数据。
大数据概念及应用将来将对各个行业和领域产生深远的影响,都是企业和个人需要格外关注和研究的领域。