GoogleBigTable中文版资源-CSDN文库

共1个文件

pdf：1个

Google

Table

3星 · 超过75%的资源需积分: 9 193 浏览量 2011-05-13 10:12:46 上传评论 1 收藏 518KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

Google BigTable 中文版.zip （1个子文件）

Google BigTable 中文版.pdf 567KB

摘要

Bigtable 是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：

通常是分布在数千台普通服务器上的 PB 级的数据。Google 的很多项目使用

Bigtable 存储数据，包括 Web 索引、Google Earth、Google Finance。这些应

用对 Bigtable 提出的要求差异非常大，无论是在数据量上（从 URL 到网页到卫

星图像）还是在响应速度上（从后端的批量处理到实时数据服务）。尽管应用

需求差异很大，但是，针对 Google 的这些产品，Bigtable 还是成功的提供了一

个灵活的、高性能的解决方案。本论文描述了 Bigtable 提供的简单的数据模型，

利用这个模型，用户可以动态的控制数据的分布和格式；我们还将描述 Bigtable

的设计和实现。

1 介绍

在过去两年半时间里，我们设计、实现并部署了一个分布式的结构化数据存储系

统 — 在 Google，我们称之为 Bigtable。Bigtable 的设计目的是可靠的处理 PB

级别的数据，并且能够部署到上千台机器上。Bigtable 已经实现了下面的几个

目标：适用性广泛、可扩展、高性能和高可用性。Bigtable 已经在超过 60 个 Google

的产品和项目上得到了应用，包括 Google Analytics、Google Finance、Orkut、

Personalized Search、Writely 和 Google Earth。这些产品对 Bigtable 提出了

迥异的需求，有的需要高吞吐量的批处理，有的则需要及时响应，快速返回数据

给最终用户。它们使用的 Bigtable 集群的配置也有很大的差异，有的集群只有

几台服务器，而有的则需要上千台服务器、存储几百 TB 的数据。

在很多方面，Bigtable 和数据库很类似：它使用了很多数据库的实现策略。并

行数据库【14】和内存数据库【13】已经具备可扩展性和高性能，但是 Bigtable

提供了一个和这些系统完全不同的接口。Bigtable 不支持完整的关系数据模型；

与之相反，Bigtable 为客户提供了简单的数据模型，利用这个模型，客户可以

动态控制数据的分布和格式(alex 注：也就是对 BigTable 而言，数据是没有格

式的，用数据库领域的术语说，就是数据没有 Schema，用户自己去定义 Schema)，

用户也可以自己推测(alex 注：reason about)底层存储数据的位置相关性(alex

注：位置相关性可以这样理解，比如树状结构，具有相同前缀的数据的存放位置

接近。在读取的时候，可以把这些数据一次读取出来)。数据的下标是行和列的

名字，名字可以是任意的字符串。Bigtable 将存储的数据都视为字符串，但是

Bigtable 本身不去解析这些字符串，客户程序通常会在把各种结构化或者半结

构化的数据串行化到这些字符串里。通过仔细选择数据的模式，客户可以控制数

据的位置相关性。最后，可以通过 BigTable 的模式参数来控制数据是存放在内

存中、还是硬盘上。

第二节描述关于数据模型更多细节方面的东西；第三节概要介绍了客户端 API；

第四节简要介绍了 BigTable 底层使用的 Google 的基础框架；第五节描述了

BigTable 实现的关键部分；第 6 节描述了我们为了提高 BigTable 的性能采用的

一些精细的调优方法；第 7 节提供了 BigTable 的性能数据；第 8 节讲述了几个

Google 内部使用 BigTable 的例子；第 9 节是我们在设计和后期支持过程中得到

一些经验和教训；最后，在第 10 节列出我们的相关研究工作，第 11 节是我们

的结论。

2 数据模型

Bigtable 是一个稀疏的、分布式的、持久化存储的多维度排序 Map(alex 注：对

于程序员来说，Map 应该不用翻译了吧。Map 由 key 和 value 组成，后面我们直

接使用 key 和 value，不再另外翻译了)。Map 的索引是行关键字、列关键字以及

时间戳；Map 中的每个 value 都是一个未经解析的 byte 数组。

(row:string, column:string,time:int64)->string

我们在仔细分析了一个类似 Bigtable 的系统的种种潜在用途之后，决定使用这

个数据模型。我们先举个具体的例子，这个例子促使我们做了很多设计决策；

假设我们想要存储海量的网页及相关信息，这些数据可以用于很多不同的项目，

我们姑且称这个特殊的表为 Webtable。在 Webtable 里，我们使用 URL 作为行

关键字，使用网页的某些属性作为列名，网页的内容存在“contents:”列中，

并用获取该网页的时间戳作为标识(alex 注：即按照获取时间不同，存储了多个

版本的网页数据)，如图一所示。

图一:一个存储 Web 网页的例子的表的片断。行名是一个反向 URL。contents 列

族存放的是网页的内容，anchor 列族存放引用该网页的锚链接文本(alex 注:如

果不知道 HTML 的 Anchor，请 Google 一把)。CNN 的主页被 Sports Illustrater

和 MY-look 的主页引用，因此该行包含了名为“anchor:cnnsi.com”和

“anchhor:my.look.ca”的列。每个锚链接只有一个版本(alex 注:注意时间戳

标识了列的版本，t9 和 t8 分别标识了两个锚链接的版本)；而 contents 列则有

三个版本，分别由时间戳 t3，t5，和 t6 标识。

行

表中的行关键字可以是任意的字符串(目前支持最大 64KB 的字符串，但是对大多

数用户，10-100 个字节就足够了)。对同一个行关键字的读或者写操作都是原

子的(不管读或者写这一行里多少个不同列)，这个设计决策能够使用户很容易的

理解程序在对同一个行进行并发更新操作时的行为。

Bigtable 通过行关键字的字典顺序来组织数据。表中的每个行都可以动态分区。

每个分区叫做一个”Tablet”，Tablet 是数据分布和负载均衡调整的最小单位。

这样做的结果是，当操作只读取行中很少几列的数据时效率很高，通常只需要很

少几次机器间的通信即可完成。用户可以通过选择合适的行关键字，在数据访

问时有效利用数据的位置相关性，从而更好的利用这个特性。举例来说，在

Webtable 里，通过反转 URL 中主机名的方式，可以把同一个域名下的网页聚集

起来组织成连续的行。具体来说，我们可以把 maps.google.com/index.html 的

数据存放在关键字 com.google.maps/index.html 下。把相同的域中的网页存储

在连续的区域可以让基于主机和域名的分析更加有效。

列族

列关键字组成的集合叫做“列族“，列族是访问控制的基本单位。存放在同一列

族下的所有数据通常都属于同一个类型(我们可以把同一个列族下的数据压缩

在一起)。列族在使用之前必须先创建，然后才能在列族中任何的列关键字下存

放数据；列族创建后，其中的任何一个列关键字下都可以存放数据。根据我们的

设计意图，一张表中的列族不能太多(最多几百个)，并且列族在运行期间很少

改变。与之相对应的，一张表可以有无限多个列。

列关键字的命名语法如下:列族:限定词。列族的名字必须是可打印的字符串，

而限定词的名字可以是任意的字符串。比如，Webtable 有个列族 language，

language 列族用来存放撰写网页的语言。我们在 language 列族中只使用一个

列关键字，用来存放每个网页的语言标识 ID。Webtable 中另一个有用的列族是

anchor；这个列族的每一个列关键字代表一个锚链接，如图一所示。Anchor 列

族的限定词是引用该网页的站点名；Anchor 列族每列的数据项存放的是链接文

本。

访问控制、磁盘和内存的使用统计都是在列族层面进行的。在我们的 Webtable

的例子中，上述的控制权限能帮助我们管理不同类型的应用:我们允许一些应用

可以添加新的基本数据、一些应用可以读取基本数据并创建继承的列族、一些应

用则只允许浏览数据(甚至可能因为隐私的原因不能浏览所有数据)。

时间戳

在 Bigtable 中，表的每一个数据项都可以包含同一份数据的不同版本；不同版

本的数据通过时间戳来索引。Bigtable 时间戳的类型是 64 位整型。Bigtable

可以给时间戳赋值，用来表示精确到毫秒的“实时”时间；用户程序也可以给时

间戳赋值。如果应用程序需要避免数据版本冲突，那么它必须自己生成具有唯

一性的时间戳。数据项中，不同版本的数据按照时间戳倒序排序，即最新的数据

排在最前面。

为了减轻多个版本数据的管理负担，我们对每一个列族配有两个设置参数，

Bigtable 通过这两个参数可以对废弃版本的数据自动进行垃圾收集。用户可以

指定只保存最后 n 个版本的数据，或者只保存“足够新”的版本的数据(比如，

只保存最近 7 天的内容写入的数据)。

在 Webtable 的举例里，contents:列存储的时间戳信息是网络爬虫抓取一个页面

的时间。上面提及的垃圾收集机制可以让我们只保留最近三个版本的网页数据。

3 API

Bigtable 提供了建立和删除表以及列族的 API 函数。Bigtable 还提供了修改集

群、表和列族的元数据的 API，比如修改访问权限。

// Open the table

Table *T = OpenOrDie(“/bigtable/web/webtable”);

// Write a new anchor and delete an old anchor

RowMutation r1(T, “com.cnn.www”);

r1.Set(“anchor:www.c-span.org”, “CNN”);

r1.Delete(“anchor:www.abc.com”);

Operation op;

Apply(&op, &r1);

Figure 2: Writing to Bigtable.

客户程序可以对 Bigtable 进行如下的操作:写入或者删除 Bigtable 中的值、从

每个行中查找值、或者遍历表中的一个数据子集。图 2 中的Ｃ++代码使用

RowMutation 抽象对象进行了一系列的更新操作。(为了保持示例代码的简洁，

我们忽略了一些细节相关代码)。调用 Apply 函数对Ｗebtable 进行了一个原子

修改操作:它为 www.cnn.com 增加了一个锚点，同时删除了另外一个锚点。

Scanner scanner(T);

ScanStream *stream;

stream = scanner.FetchColumnFamily(“anchor”);

stream->SetReturnAllVersions();

scanner.Lookup(“com.cnn.www”);

for (; !stream->Done(); stream->Next()) {

printf(“%s %s %lld %s\n”,

scanner.RowName(),

stream->ColumnName(),

stream->MicroTimestamp(),

stream->Value());

}

Figure 3: Reading from Bigtable.

图 3 中的 C++代码使用 Scanner 抽象对象遍历一个行内的所有锚点。客户程序可

以遍历多个列族，有几种方法可以对扫描输出的行、列和时间戳进行限制。例

如，我们可以限制上面的扫描，让它只输出那些匹配正则表达式*.cnn.com 的锚

点，或者那些时间戳在当前时间前 10 天的锚点。

Bigtable 还支持一些其它的特性，利用这些特性，用户可以对数据进行更复杂

的处理。首先，Bigtable 支持单行上的事务处理，利用这个功能，用户可以对

存储在一个行关键字下的数据进行原子性的读-更新-写操作。虽然 Bigtable 提

供了一个允许用户跨行批量写入数据的接口，但是，Bigtable 目前还不支持通

用的跨行事务处理。其次，Bigtable 允许把数据项用做整数计数器。最后，

Bigtable 允许用户在服务器的地址空间内执行脚本程序。脚本程序使用 Google

开发的 Sawzall【28】数据处理语言。虽然目前我们基于的 Sawzall 语言的 API

函数还不允许客户的脚本程序写入数据到 Bigtable，但是它允许多种形式的数

据转换、基于任意表达式的数据过滤、以及使用多种操作符的进行数据汇总。

Bigtable 可以和 MapReduce【12】一起使用，MapReduce 是 Google 开发的大规

模并行计算框架。我们已经开发了一些 Wrapper 类，通过使用这些 Wrapper 类，

Bigtable 可以作为 MapReduce 框架的输入和输出。

4 BigTable 构件

Bigtable 是建立在其它的几个 Google 基础构件上的。BigTable 使用 Google 的

分布式文件系统(GFS)【17】存储日志文件和数据文件。BigTable 集群通常运

行在一个共享的机器池中，池中的机器还会运行其它的各种各样的分布式应用程

序，BigTable 的进程经常要和其它应用的进程共享机器。BigTable 依赖集群管

理系统来调度任务、管理共享的机器上的资源、处理机器的故障、以及监视机器

的状态。

BigTable 内部存储数据的文件是 Google SSTable 格式的。SSTable 是一个持久

化的、排序的、不可更改的 Map 结构，而 Map 是一个 key-value 映射的数据结构，

key 和 value 的值都是任意的 Byte 串。可以对 SSTable 进行如下的操作:查询与

一个 key 值相关的 value，或者遍历某个 key 值范围内的所有的 key-value 对。

从内部看，SSTable 是一系列的数据块(通常每个块的大小是 64KB，这个大小是

可以配置的)。SSTable 使用块索引(通常存储在 SSTable 的最后)来定位数据块；

在打开 SSTable 的时候，索引被加载到内存。每次查找都可以通过一次磁盘搜索

完成:首先使用二分查找法在内存中的索引里找到数据块的位置，然后再从硬盘

读取相应的数据块。也可以选择把整个 SSTable 都放在内存中，这样就不必访问

硬盘了。

BigTable 还依赖一个高可用的、序列化的分布式锁服务组件，叫做 Chubby【8】。

一个 Chubby 服务包括了 5 个活动的副本，其中的一个副本被选为 Master，并

且处理请求。只有在大多数副本都是正常运行的，并且彼此之间能够互相通信

的情况下，Chubby 服务才是可用的。当有副本失效的时候，Chubby 使用 Paxos

算法【9,23】来保证副本的一致性。Chubby 提供了一个名字空间，里面包括了

目录和小文件。每个目录或者文件可以当成一个锁，读写文件的操作都是原子

的。Chubby 客户程序库提供对 Chubby 文件的一致性缓存。每个 Chubby 客户程

序都维护一个与 Chubby 服务的会话。如果客户程序不能在租约到期的时间内重

新签订会话的租约，这个会话就过期失效了

(alex 注:又用到了 lease。原文

是:A client’s session expires if it is unable to renew its session lease

within the lease expiration time.)。

当一个会话失效时，它拥有的锁和打开

评论收藏

内容反馈

fcgong

2012-09-28

不错的书。求更详细的设计原理

海若男

粉丝: 3
资源: 13

Google BigTable 中文版

BigTable中文版

Google_BigTable中文版

Google BigTable中文版.pdf

Google BigTable

Google三大论文之BigTable中文完整版

google-bigtable中文版

google bigtable中文版

谷歌Bigtable File-System MapReduce论文

Google-Bigtable中文版_1.0.pdf

Google's BigTable 原理 （中文）

谷歌三大核心技术（三）Google_BigTable中文版

BigTable 论文中文版

Google大数据三大论文 三合一 中文版 GFS MapReduce BigTable

GFS BigTable MapReduce中文版

Google-Bigtable中文版、Google-File-System中文版、Google-MapReduce中文版

google bigtable论文

Google-Bigtable中文版_1.0.zip

谷歌三驾马车中文版 google file system+mapreduce+bigtable中文版

谷歌三大核心技术File System MapReduce BigTable 中文版

Google BigTable Paper

Google三篇论文-BigTable英文版

Google BigTable和Chubby讲稿

GFS、MapReduce和BigTable：Google的三种大数据处理系统

Google大数据三大论文（GFS/BigTable/MapReduce）

Google Bigtable文献中文版

谷歌BIGtable介绍

Bigtable探秘 Google分布式数据存储系统.pdf

GFS、MapReduce和BigTable：Google的三种大数据处理系统.docx

GFS、MapReduce和BigTable：Google的三种大数据处理系统.pdf

最新资源

Google's BigTable 原理（中文）

Google大数据三大论文三合一中文版 GFS MapReduce BigTable