和
正确性。纵向扩展系统,通过增加或者更换 CPU、内存、
硬盘以扩展单个节点的能力,终会遇到“瓶颈”。
分布式文件系统
对数据存储,文件系统需要考虑 3 个问题:高性能共享
性、文件的管理和保护、重复数据的处理。尤其是在面对海
量文件时,上述问题更加凸显。文件系统是支持大数据应用
的基础。Google 是有史以来唯一需要处理如此海量数据的
大公司。对于 Google 而言,现有的方案已经难以满足其如
此大的数据量的存储,为此 Google 提出了一种分布式的文
件管理系统——GFS(Google file system)。GFS 是构建在
大量廉价服务器之上的可扩展的分布式文件系统,主要针对
文 件 较 大 、 且 读 远 大 于 写 的 应 用 场 景 , 采 用 主 从
( Master-Slave ) 结 构 , 通 过 数 据 分 块 、 追 加 更 新
(append-only)等方式实现了海量数据的高效存储。同时,
谷歌公司选择电价较低的地点建立存储库,从而降低了运行
成本。
GFS 与传统的分布式文件系统有很多相同的目标,比
如,性能、可伸缩性、可靠性以及可用性。但是,GFS 的成
功之处在于其与传统文件系统的不同。GFS 的设计思路主要
基于以下的假设:对于系统而言,组件失败是一种常态而不
是异常。GFS 是构建于大量廉价的服务器之上的可扩展的分
评论0
最新资源