【摘要】数据存储技术经历了从手工管理到文件管理、再到数据库管理系统
三个阶段,数据库技术中关系数据库占据了主要地位。互联网络的兴起,促使用
户数据暴增,大数据时代已经来临,对存储介质容量和数据检索速度都提出了更
高的要求,传统的关系数据库难以胜任这一角色,NOSQL 数据库逐渐兴起。本
文在介绍大数据概念的基础上,分析关系数据库的优劣势,并介绍NOSQL 数据
库的理论基础和当前 NOSQL 数据库产品。
【关键词】大数据;关系数据库;NOSQL
一、大数据
大数据(Big Data),也称巨量资料,指的是所涉及的资料量规模巨大到无法
通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助
企业经营决策更积极目的资讯,通常被认为是 PB 或 EB 或更高数量级的数据。
互联网络从上世纪 90 年代开始,发展迅速,加快了信息传播和共享的速度,
尤其是一些社交网站的兴起,数据量更是以前所未有的速度暴增,文字资料、声
音、视频、图像等多媒体数据铺天盖地。据资料显示,上世纪 90 年代,互联网
资源不是很丰富的时代,网民月平均流量 1MB 左右,之后则快速增长,2000 年
后,逐渐发展为每月 10MB、100MB、1GB,据估计 2014 年可能会达到 10GB。
淘宝网每日几千万笔交易,单日数据量达几十 TB,数据存储量几十 PB,百度公
司目前数据总量接近 1000PB,存储网页数量接近 1 万亿页,每天大约要处理 60
亿次搜索请求,几十 PB 数据。
随着技术发展,大数据广泛存在,如企业数据、统计数据、科学数据、医疗
数据、互联网数据、移动数据、物联网数据等等。总之,大数据存在于各行各业,
一个大数据的时代已经到来。
大数据特点是容量在增长、种类在增长、速度也在增长,面临如此庞大的数
据量,数据的存储和检索面临着巨大挑战。比如 2007 年时,Facebook 使用数据
仓库存储 15 个 TB 的数据,但到了 2010 年,每天压缩过的数据比过去总和还多,
那时商业并行数据库很少有超过 100 个节点以上的,而现在雅虎的 Hadoop 集群
超过 4000 个节点,Facebook 仓库节点超过 2700 个。大量的数据现在已经开始
影响我们整个的工作、生活、甚至经济,如何存储和高效利用这些数据是需要我
们解决的。