文件存储 选型报告
分布式文件存储的来源
在这个数据爆炸的时代,产生的数据量不断地在攀升,从 GB,TB,PB,ZB.挖掘其
中数据的价值也是企业在不断地追求的终极目标。但是要想对海量的数据进行挖
掘,首先要考虑的就是海量数据的存储问题,比如 Tb 量级的数据。
谈到数据的存储,则不得不说的是磁盘的数据读写速度问题。早在上个世纪 90
年代初期,普通硬盘的可以存储的容量大概是 1G 左右,硬盘的读取速度大概为
4.4MB/s.读取一张硬盘大概需要 5 分钟时间,但是如今硬盘的容量都在 1TB 左
右了,相比扩展了近千倍。但是硬盘的读取速度大概是 100MB/s。读完一个硬盘
所需要的时间大概是 2.5 个小时。所以如果是基于 TB 级别的数据进行分析的话,
光硬盘读取完数据都要好几天了,更谈不上计算分析了。那么该如何处理大数据
的存储,计算分析呢?这就会涉及到如下的分布式文件存储。
常见的分布式文件系统
GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS 等。各
自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布
式文件存 储服务。
分布式文件存储选型比较
知名开源分布式文件存储
1.GFS(Google File System)
Google 公司为了满足本公司需求而开发的基于 Linux 的专有分布式文件系统。
尽管 Google 公布了该系统的一些技术细节,但 Google 并没有将该系统的软件
部分作为开源软件发布。