大数据基本概念
Google 三篇论文,奠定了大数据算法的基础
2003 年,发布 Google File System 论文
这是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量
数据进行访问的应用,运行于廉价的普通硬件上,提供容错功能。从根本
上说:文件被分割成很多块,使用冗余的方式储存于商用机器集群上。
2004 年,发布 MapReduce 论文
论文描述了大数据的分布式计算方式,主要思想是将任务分解后在多台
处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处
理。
2006 年,发布 Bigtable 论文,
启发了无数的 NoSQL 数据库,如:
Cassandra 、 HBase 、 MongoDB 等等。