GoogleFile System (GFS)的发布,大数据不再仅用来描述大量
的数据,还涵盖了处理数据的速度。
大数据(Big Data)是指那些超过传统数据库系统处理能力的数
据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数
据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处
理它。数据中隐藏着有价值的模式和信息,在以往需要相当的时间和
成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的
代价才能从大数据中挖掘信息。而当今的各种资源,如硬件、云架构
和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业
的公司也可以用较低的价格租用云服务时间了。对于企业组织来讲,
大数据的价值体现在两个方面:分析使用和二次开发。对大数据进行
分析能揭示隐藏其中的信息。例如零售业中对门店销售、地理和社会
信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功
的网络公司的长项。例如 Facebook 通过结合大量用户信息,定制出
高度个性化的用户体验,并创造出一种新的广告模式。这种通过大数
据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和
Facebook 它们都是大数据时代的创新者。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关
注。《著云台》的分析师团队认为,大数据(Big data)通常用来形
容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到
关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云
计算联系到一起,因为实时的大型数据集分析需要像 MapReduce