cephcrush算法分析_crush算法资源-CSDN文库

需积分: 39 20 浏览量 2018-06-11 09:48:17 上传评论收藏 824KB DOCX 举报

随着大规模分布式存储系统(PB级的数据和成百上千台存储设备)的出现。这些系统必须平衡的分布数据和负载(提高资源利用率)，最大化系统的性能，并要处理系统的扩展和硬件失效。ceph设计了CRUSH(一个可扩展的伪随机数据分布算法)，用在分布式对象存储系统上，可以有效映射数据对象到存储设备上(不需要中心设备)。因为大型系统的结构式动态变化的，CRUSH能够处理存储设备的添加和移除，并最小化由于存储设备的的添加和移动而导致的数据迁移【Ceph CRUSH 算法详解】 Ceph 是一个高度可扩展的分布式存储系统，设计用于处理PB级别的数据和大量的存储设备。在这样的环境中，有效地分布数据和负载至关重要，以确保资源利用率最大化，系统性能最优化，并能适应扩展和硬件故障。为此，Ceph引入了CRUSH（Controlled Replication Under Scalable Hashing）算法，这是一个专门针对分布式对象存储的、去中心化的数据映射策略。 CRUSH算法的主要目标是在存储集群的动态结构中，根据预定义的规则和层次结构，将数据对象高效且均匀地映射到存储设备上，同时尽量减少因设备增减引起的数据迁移。其核心理念是通过一个确定性的伪随机函数，根据对象ID或对象组ID来确定存储设备。该函数依赖于cluster map，描述了存储集群的层级结构，以及副本分布策略，即ruleset。 CRUSH算法具有两个显著优势： 1. 去中心化：每个组件都能独立计算出对象的存储位置，无需中心控制。 2. 元数据效率：仅在设备添加或删除时才需要更新cluster map，从而降低元数据的变更频率。 CRUSH算法的映射过程涉及以下几个概念： 1. Placement Group (PG)：是Ceph中数据分配的基本单位，将数据分割成多个小块，每个PG包含一定数量的对象副本。PG的数量可以通过池(pool)的属性进行配置。 2. OSD（Object Storage Daemon）：存储数据的服务器节点，每个OSD对应集群中的一个物理或虚拟设备。 3. OSD Map：包含了当前所有pool的状态和OSD的状态，形成了一个树形结构，其中叶子节点是OSD，非叶子节点（bucket）可以抽象为数据中心、机房、机架或服务器等。OSD Map为CRUSH算法提供了上下文，限制了选择OSD的范围。映射过程分为以下步骤： 1. 根据Pool的属性（如副本数和PG数）和所使用的CRUSH Ruleset，确定PG到OSD Set的映射。 2. CRUSH算法根据OSD Map中的树形结构和bucket的权重（可以基于容量或性能设定）进行计算，确定每个PG应该映射到的OSD。 3. 在树形结构中，CRUSH会采用随机策略，但又保持确定性，确保数据的均匀分布。对于不同类型的bucket（如uniform、tree等），算法有不同的处理方式，例如对于uniform bucket，采用简单的随机选择，而对于其他类型，可能涉及到更复杂的搜索算法。通过这种映射策略，CRUSH能够实现灵活的数据分布策略，支持多种数据保护机制，如镜像复制、RAID奇偶校验或混合方法（如RAID-10），以确保大规模存储系统的可伸缩性、性能和数据安全性。简言之，CRUSH算法是Ceph中PG到OSD映射的关键，它决定了数据如何在存储集群中高效、安全地分布。

资源推荐

资源详情

资源评论

Ceph

源码解析： CRUSH

算法

1、简介

随着大规模分布式存储系统 级的数据和成百上千台存储设备的出现。这些系统必

须平衡的分布数据和负载提高资源利用率，最大化系统的性能，并要处理系统的扩展和

硬件失效。 设计了 一个可扩展的伪随机数据分布算法，用在分布式对象存

储系统上，可以有效映射数据对象到存储设备上不需要中心设备。因为大型系统的结构

式动态变化的， 能够处理存储设备的添加和移除，并最小化由于存储设备的的添

加和移动而导致的数据迁移。

为了保证负载均衡，保证新旧数据混合在一起。但是简单  分布不能有效处理设

备数量的变化，导致大量数据迁移。 开发了 （

），一种伪随机数据分布算法，它能够在层级结构的存储集群

中有效的分布对象的副本。 实现了一种伪随机确定性的函数，它的参数是

 或 ，并返回一组存储设备用于保存  副本

。 需要  描述存储集群的层级结构、和副本分布策略。

 有两个关键优点：

o 任何组件都可以独立计算出每个  所在的位置去中心化。

o 只需要很少的元数据 ，只要当删除添加设备时，这些元数据才需

要改变。

 的目的是利用可用资源优化分配数据!当存储设备添加或删除时高效地重组数

据!以及灵活地约束对象副本放置!当数据同步或者相关硬件故障的时候最大化保证数据安

全。支持各种各样的数据安全机制!包括多方复制镜像!" 奇偶校验方案或者其他形式

的校验码!以及混合方法比如 "#$%。这些特性使得  适合管理对象分布非常大

的 级别、要求可伸缩性!性能和可靠性非常高的存储系统。简而言之就是 & 到 

的映射过程。

2.映射过程

2.1 概念

 中  的属性有：$' 的副本数ããã(' & 的数量ãããã)'所使

用的 

数据映射（ ）的方式决定了存储系统的性能和扩展性。

（，&）→ã 的映射由四个因素决定：

（$） 算法

（(）*：包含当前所有  的状态和  的状态。* 管理当前 

中所有的 ，* 规定了  算法的一个范围，在这个范围中选择  结合。

* 其实就是一个树形的结构，叶子节点是 +（也就是 ），其他的节点称

为 , 节点，这些 , 都是虚构的节点，可以根据物理结构进行抽象，当然树形

结构只有一个最终的根节点称之为  节点，中间虚拟的 , 节点可以是数据中心抽

象、机房抽象、机架抽象、主机抽象等如下图。



 组成的逻辑树形结构

-,

.

--)(/012+10

--$34/01#5/46%+7+10

--8/017-9:;-110

--8/01<7!--110

--)(</01$3#=>1000权重一般有两种设法。一种按容量，一般

是 $; 为 $，?%%& 就是 %'?。另外一种按性能。具体按实际设置。ã

--)(5/01  10

--)(1 /

01

1  @77 ,7

17,7,4'

10

--)( ->/01A>7<1 =10

--)( -/01  71  0=10

--)(1 /

（)）*：包含当前磁盘、服务器、机架的层级结构。

（C）：数据映射的策略。这些策略可以灵活的设置  存放的区域。

比如可以指定ã$ 中所有  放置在机架 $ 上，所有  的第 $ 个副本放置在

机架 $ 上的服务器  上，第 ( 个副本分布在机架 $ 上的服务器  上。ã( 中所有的

 分布在机架 (、)、C 上，所有  的第 $ 个副本分布在机架 ( 的服务器上，第

( 个副本分布在机架 ) 的服器上，第 ) 个副本分布在机架 C 的服务器上。

2.2 流程

架构中，客户端是直接读或者写存放在ã 上的ã对象存储中的

对象（）的，因此，需要走完ã(Pool, Object) → (Pool, PG) →

OSD set → OSD/Disk完整的链路，才能让ã知道目标数据ã 的具体

位置在哪里。

数据写入时，文件被切分成 ， 先映射到 &，再由 & 映射到 

。每个  有多个 &，每个  通过计算  值并取模得到它所对应的

&。& 再映射到一组 （ 个数由  的副本数决定），第一个  是

 4，剩下的都是 。

 分布数据的过程：首先计算数据 x 的  值并将结果和 & 数目取余，以得到

数据 x 对应的 PG 编号。然后，通过  算法将 & 映射到一组  中。最后把数据

x 存放到 & 对应的  中。这个过程中包含了两次映射，第一次是数据 x 到 & 的映射。

& 是抽象的存储节点，它不会随着物理节点的加入或则离开而增加或减少，因此数据到

& 的映射是稳定的。

（$）创建ã和它的ã&。根据上述的计算过程，&在ã被创建后就会被ã*D在

根据ã算法计算出来的ã&应该所在若干的ã上被创建出来了。也就是说，在

客户端写入对象的时候，&已经被创建好了，&和ã的映射关系已经是确定了的。

（(）客户端通过哈希算法计算出存放ã的ã&的ã"：

$' 客户端输入ã"和ã"（比如ã6E+F#6

EF）

(' 对ã"做哈希

)' 对该ã值取ã&总数的模，得到ã&编号ã（比如ã?8）（第 ( 和第 ) 步基本保

证了一个ã的所有ã&将会被均匀地使用）

C' 对ã"取ã（比如ã“+F6C）

?' 将ãã"和ã&"组合在一起（比如ãC'?8）得到ã&的完整 "。

也就是：&#6#'#G&# 



（)）客户端通过ã算法计算出（或者说查找出）ã应该会被保存到ã&中哪

个ã上。（注意：这里是说”应该“，而不是”将会“，这是因为ã&和ã之间的关系

是已经确定了的，那客户端需要做的就是需要知道它所选中的这个ã&到底将会在哪些ã

上创建对象。）。这步骤也叫做ã查找。ãã

对ã客户端来说，只要它获得了ã ，就可以使用ã算法计算出

某个ã将要所在的ã的ã"，然后直接与它通信。

$' 从ã*D获取最新的ã 。

(' 根据上面的第（(）步计算出该ã将要在的ã&的ã"。

)' 再根据ã算法计算出ã&中目标主和次ã的ã"。

也就是：#6&#!# !#。



具体数据读写流程下次整理分析。

3 CRUSH 算法

 算法根据种每个设备的权重尽可能概率平均地分配数据。分布算法是由集群可

用存储资源以及其逻辑单元的  控制的。这个  的描述类似于一个大型服务器的描

述：服务器由一系列的机柜组成，机柜装满服务器，服务器装满磁盘。数据分配的策略是

由定位规则来定义的，定位规则指定了集群中将保存多少个副本，以及数据副本的放置有

什么限制。例如，可以指定数据有三个副本，这三个副本必须放置在不同的机柜中，使得

三个数据副本不公用一个物理电路。

给定一个输入 >，算法将输出一个确定的有序的储存目标向量ãH。当输入

>， 利用强大的多重整数  函数根据集群 、定位规则、以及 > 计算出独立

剩余22页未读，继续阅读

评论收藏

内容反馈

baihui9002

粉丝: 0
资源: 3

ceph crush算法分析

最新资源

ceph crush算法分析

ceph crush算法

分布式文件系统CEPH的CRUSH算法原理

ceph crush算法介绍.ppt

ceph Crush算法高清中文版详解

开源Ceph10.2.1源码分析.docx

Ceph源码分析：librbd

ceph架构分析

Mastering Ceph

ceph超详细中文文档

ceph应用技术白皮书

Ceph 存储架构和管理Ceph125学习实验环境.rar

Learning Ceph

Ceph学习资源多合一

ceph_code_analysis:ceph代码分析

ceph-12.2.5源码包

DS918.zip DS918.zip DS918.zip

群晖DS918+ dsm7.0.1 集成8125b网卡驱动 引导文件 镜像

syno_search_fullpack.zip

csv文件下载（人员信息.txt)

ocr-zh-cn.rar主打一个免费

CBM2199E量产工具

RePKG.rar文件

tools.zip tools.zip

VisionMaster4.0.0

DSM7.X套件.zip

Webyog SQLyog Ultimate

群晖NAS系列教程.zip

PPSSPP全套金手指分享 99%游戏都会有 中文，英文双套整合版

最新资源

群晖DS918+ dsm7.0.1 集成8125b网卡驱动引导文件镜像

PPSSPP全套金手指分享 99%游戏都会有中文，英文双套整合版