Google文件系统.doc资源-CSDN文库

google

需积分: 9 178 浏览量 2011-01-10 22:27:05 上传评论收藏 363KB DOC 举报

资源详情

资源评论

Google 文件系统

摘要

我们设计并实现了 Google 文件系统，一个为数据中心的大规模分布应用设计

的可伸缩的分布文件系统。Google 文件系统虽然运行在廉价的普遍硬件上，但

是可以提供容错能力，为大量客户机提供高性能的服务。

我们的系统与许多以前的分布文件系统拥有许多相同的目标，但我们的设计还

受到我们对我们的应用负载和技术环境观察的影响，不管现在还是将来，我们

和早期文件系统的假设都有明显的不同。所以我们重新审视了传统的选择，发

展了完全不同的设计观点。

Google 文件系统成功的满足了我们的存储需求。它作为存储平台被广泛的部署

在 Google 内部，用在我们的服务中产生和处理数据，还用于那些需要大规模

数据集的研究和开发。目前为止最大的集群利用数千台机器内的数千个硬盘，

提供了数百 T 的存储空间，同时为数百个客户机服务。

在这篇论文中，我们展现如果用文件系统接口扩展设计去支撑分布应用，讨论

我们设计的许多方面，最后报告在小规模性能测试以及真实世界中系统的性能

测试结果。

1. 简介

我们设计并实现了 Google 文件系统(Google File System - GFS)，用来满足

Google 迅速增长的数据处理需求。GFS 与过去的分布文件系统拥有许多相同

的目标，例如性能，可伸缩性，可靠性以及可用性。然而，它的设计还受到我

们对我们的应用负载和技术环境观察的影响，不管现在还是将来，我们和早期

文件系统的假设都有明显的不同。所以我们重新审视了传统的选择，采取了完

全不同的设计观点。

首先，组件失效不再被认为是意外，而是被看做正常的现象。这个文件系统包

括几百甚至几千台普通廉价部件构成的存储机器，又被相应数量的客户机访问。

组件的数量和质量几乎保证，在任何给定时间，某些组件无法工作，而某些组

件无法从他们的目前的失效状态恢复。我们发现过，应用程序 bug 造成的问题，

操作系统 bug 造成的问题，人为原因造成的问题，甚至硬盘、内存、连接器、

网络以及电源失效造成的问题。所以，常量监视器，错误侦测，容错以及自动

恢复系统必须集成在系统中。

其次，按照传统的标准来看，我们的文件非常巨大。数 G 的文件非常寻常。每

个文件通常包含许多应用程序对象，比如 web 文档。传统情况下快速增长的数

据集在容量达到数 T，对象数达到数亿的时候，即使文件系统支持，处理数据

集的方式也就是笨拙地管理数亿 KB 尺寸的小文件。所以，设计预期和参数，

例如 I/O 操作和块尺寸都要重新考虑。

第三，在 Google 大部分文件的修改，不是覆盖原有数据，而是在文件尾追加

新数据。对文件的随机写是几乎不存在的。一般写入后，文件就只会被读，而

且通常是按顺序读。很多种数据都有这些特性。有些数据构成数据仓库供数据

分析程序扫描。有些数据是运行的程序连续生成的数据流。有些是存档的数据。

有些数据是在一台机器生成，在另外一台机器处理的中间数据。对于这类巨大

文件的访问模式，客户端对数据块缓存失去了意义，追加操作成为性能优化和

原子性保证的焦点。

第四，应用程序和文件系统 API 的协同设计提高了整个系统的灵活性。例如，

我们放松了对 GFS 一致性模型的要求，这样不用加重应用程序的负担，就大大

的简化了文件系统的设计。我们还引入了原子性的追加操作，这样多个客户端

同时进行追加的时候，就不需要额外的同步操作了。论文后面还会对这些问题

的细节进行讨论。

为了不同的应用，Google 已经部署了许多 GFS 集群。最大的一个，拥有超过

1000 个存储节点，超过 300T 的硬盘空间，被不同机器上的数百个客户端连续

不断的频繁访问着。

2.设计概述

2.1 设计预期

在设计我们需要的文件系统时，我们用既有机会又有挑战的设计预期来指导我

们的工作。前面我们提到了一些关键的信息，这里我们讲更细节的描述我们的

设计预期。

 这个系统由许多廉价易损的普通组件组成。它必须持续监视自己的状态，

它必须在组件失效作为一种常态的情况下，迅速地侦测、承担并恢复那

些组件失效。

 这个系统保存一定数量的大文件。我们预期有几百万文件，尺寸通常是

100MB 或者以上。数 GB 的文件也很寻常，而且被有效的管理。小文件

必须支持，但是不需要去优化。

 负载中主要包含两种读操作：大规模的流式读取和小规模随机读取。大

规模的流式读取通常一次操作就读取数百 K 数据，更常见的是一次性读

取 1MB 甚至等多。同一个客户机的连续操作通常是对一个文件的某个区

域进行连续读取。小规模的随机读取通常是在随机的位置读取几个 KB。

对性能有所要求的程序通常把小规模的读批量处理并且排序，这样就不

需要对文件进行时前时后的读取，提高了对文件读取的顺序性。

 负载中还包括许多大规模的顺序的写操作，追加数据到文件尾部。一般

来说这些写操作跟大规模读的尺寸类似。数据一旦被写入，文件就几乎

不会被修改了。系统对文件的随机位置写入操作是支持的，但是不必有

效率。

 系统必须高效的实现良好定义的多客户端并行追加到一个文件的语意。

我们的文件经常用于"生产者-消费者"队列，或者多路文件合并。数百个

生产者，一个机器一个，同时的对一个文件进行追加。用最小的同步开

销实现追加的原子操作是非常重要的。文件可能稍后被读取，也可能一

个消费者同步的读取文件。

 高度可用的带宽比低延迟更加重要。大多数我们的目标程序，在高传输

速率下，大块地操作数据，因为大部分单独的读写操作没有严格的响应

时间要求。

2.2 接口

GFS 提供了一个类似传统文件系统的接口，虽然它并没有实现类似 POSIX 的

标准 API。文件在目录中按照层次组织，用路径名来标识。我们支持常用的操

作，如创建，删除，打开，关闭，读和写文件。

而且，GFS 有

快照

和

记录追加

操作。快照操作可以用很低的成本创建文件或者

目录树的拷贝。记录追加操作可以在保证原子性的前提下，允许多个客户端同

时在一个文件上追加数据。这对于实现多路结果合并以及"生产者-消费者"模型

非常有好处，多个客户端可以同时在一个文件上追加数据，而不需要任何额外

的锁定。我们发现这些文件类型对构建大型分布应用是非常有价值的。快照和

记录追加将分别在 3.4 和 3.3 章节讨论。

2.3 架构

一个 GFS 集群包含一个主服务器和多个块服务器，被多个客户端访问，如图

1。这些机器通常都是普通的 Linux 机器，运行着一个基于用户层的服务进程。

如果机器的资源允许，而且运行多个程序带来的低稳定性是可以接受的话，我

们可以很简单的把块服务器和客户端运行在同一台机器。

图 1: GFS 架构

文件被分割成固定尺寸的块。在每个块创建的时候，服务器分配给它一个不变

的、全球唯一的 64 位的块句柄对它进行标识。块服务器把块作为 linux 文件保

存在本地硬盘上，并根据指定的块句柄和字节范围来读写块数据。为了保证可

靠性，每个块都会复制到多个块服务器上。缺省情况下，我们保存三个备份，

不过用户可以为不同的文件命名空间设定不同的复制级别。

主服务器管理文件系统所有的元数据。这包括名称空间，访问控制信息，文件

到块的映射信息，以及块当前所在的位置。它还管理系统范围的活动，例如块

租用管理，孤儿块的垃圾回收，以及块在块服务器间的移动。主服务器用心跳

信息周期地跟每个块服务器通讯，给他们以指示并收集他们的状态。

GFS 客户端代码被嵌入到每个程序里，它实现了 Google 文件系统 API，帮助

应用程序与主服务器和块服务器通讯，对数据进行读写。客户端跟主服务器交

互进行元数据操作，但是所有的数据操作的通讯都是直接和块服务器进行的。

我们并不提供 POSIX API，而且调用不需要深入到 Linux 的 vnode 级别。

不管是客户端还是块服务器都不缓存文件数据。客户端缓存几乎没什么好处，

因为大部分程序读取巨大文件的全部，或者工作集太大无法被缓存。不进行缓

存简化了客户端和整个系统，因为无需考虑缓存相关的问题。（不过，客户端

会缓存元数据。）块服务器不需要缓存文件数据的原因是，块保存成本地文件

形式，Linux 的缓冲器会把经常被访问的数据缓存在内存中。

2.4 单一主服务器

单一的主服务器大大简化了我们的设计，这样主服务器可以通过全局的信息精

确确定块的位置以及进行复制决定。然而，我们必须减少主服务器对数据读写

的影响，避免使主服务器成为系统的瓶颈。客户端不通过主服务器读写数据。

剩余24页未读，继续阅读

评论收藏

内容反馈

Google文件系统.doc

评论0

最新资源

Google文件系统.doc

评论0

最新资源

相关推荐

google mock doc

Google文件系统

Google文件系统（中文版）

文件系统详解.doc

文件系统总结.doc

Google云计算简介.doc

金格控件未安装的解决方法.doc

VRML虚拟校园相关技术资料汇总

《信息检索系统》方案.doc

Google文件系统(含中文版和英文版)

Google文件系统GFS

文件系统实验报告.doc

Linux文件系统编程技术.doc

安卓Android开发电子书大全 2018 (1/4)

安卓Android开发电子书大全 2018 (4/4)

Android应用开发实验指导书.doc

Android实训报告.doc

数据库课程设计题目汇总.doc

linux 文件系统的制作方法.doc

linux虚拟文件系统与物理文件系统.doc

Linux文件系统.doc

操作系统课程设计文件系统.doc

FATFS文件系统.doc

Mapreduce实验报告.doc

javajava概要设计方案.doc

大数据定义.doc

典型云计算平台介绍.doc