没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
2014 年 10 月 Journal on Communications October 2014
第 35 卷第 10 期
通 信 学 报
Vol.35
No. 10
云存储系统中数据副本服务的可靠性保障研究
黄昌勤
1,2
,李源
1
,吴洪艳
1
,汤庸
2
,罗旋
1
(1. 华南师范大学 教育信息技术学院,广东 广州 510631;2. 中山大学 计算机系,广东 广州 510275)
摘 要:以数据节点与网络链路的可靠性因素分析为基础,提出了云存储系统的数据副本服务可靠性模型。根据
访问可靠性与数据副本数量、用户访问量之间的关系,设计数据服务可靠性、副本生成时机、存储节点选择的确
定方法,实现了副本分布、删除算法,并在云存储系统 ERS-Cloud 上进行一系列实验,结果表明该方法能够有效
保障数据服务的可靠性,进一步降低副本的冗余存储数量。
关键词:云存储;数据副本;可靠性模型;保障
中图分类号:TP393 文献标识码:A 文章编号:1000-436X(2014)10-0089-09
Modeling and maintaining the reliability of
data replica service in cloud storage systems
HUANG Chang-qin
1,2
,LI Yuan
1
, WU Hong-yan
1
,TANG Yong
2
, LUO Xuan
1
(1. School of
Educational Information and Technology, South China Normal University, Guangzhou 510631, China;
2. Department of Computer Science, Sun Yat-Sen University, Guangzhou 510275, China)
Abstract: The reliability of data-nodes and the reliability of relevant network links were analyzed, and then the reliability
model of replica service of cloud storage systems was constructed. According to the relationships among access reliability,
the number of replicas and the number of user’s accesses, the reliability of data service and the trigger mechanism of rep-
lica generation were presented, and the storage node selection was aptly checked, then the replica distribution algorithm
and replica deletion algorithm were proposed. Finally a series of experiments were conducted in the cloud storage system,
named ERS-Cloud, and the results indicate that the approach can ensure the reliability of data service, and further de-
crease the number of replicas of the redundant storage.
Key words: cloud storage; data replica; reliability model; maintenance
1 引言
云存储系统的数据存储过程是将资源文件分割
成数据块,并根据一定的副本策略分布在不同的数
据节点上,以确保数据资源的可靠性,如
GFS
[1]
、
HDFS
[2]
。由于在副本数量达到一定量的时候,增加
副本数量对数据可靠性提升将不再明显
[3]
,反而会造
成存储空间浪费,因此一般云存储系统将副本限额
设定为一个不大的值,如默认值 3。在云存储中数据
副本的生成与处理也为系统带来了额外的开销,因
此副本管理的效果与代价问题也自然成为了许多学
者关注的热点。如 Nicolas
[4]
等提出了一个自我管理、
容错和可扩展云存储副本机制,该机制能够根据代
价
−效率为应用动态分配资源;Liao
[5]
等提出了一种
基于服务质量感应的动态数据副本删除策略,并实
现相关算法 DRDS,以降低云存储系统空间占用与
收稿日期:2013-09-18;修回日期:2013-12-04
基 金 项 目 : 国 家 自 然 科 学 基 金 资 助 项 目 (61370229,61370178,61272067,60940033) ;
广 东 省 自 然 科 学 基 金 资 助 项 目
(S2013010015178, 10151063101000046);广东省科技计划基金资助项目(2012A032200018,2010B010600033);
广东省教
育厅科技创新基金资助项目(2012KJCX0037);中国博士后科学基金资助项目(201003374, 2013M540658)
Foundation Items:
The National Natural Science Foundation of China (61370229, 61370178, 61272067, 60940033); The Natural
Science Foundation of Guangdong Province (S2013010015178, 10151063101000046); The Science-Technology Projects of Guan
g-
dong Province (2012A032200018, 2010B010600033); The Science-Technology Project of DEGP (2012KJCX0037); The Postdo
c-
toral Foundation of China (201003374, 2013M540658)
doi:10.3969/j.issn.1000-436x.2014.10.011
·90· 通 信 学 报 第 35 卷
代价消耗;宋娅菲
[6]
提出了一种基于竞标模式的副本
放置策略以解决云存储系统中副本动态调整的问
题,该策略将负载、副本距离等因素转换成竞标参
数进行调整。然而,对于绝大多数资源文件,特别
是存储时间短、访问量较小的资源文件,仅仅考虑
副本冗余也将造成系统资源的大量浪费,同时影响
用户访问效能
[7]
。结合实际应用、数据访问可靠性关
注副本管理,也是本领域的关注焦点之一,典型研
究有基于用户访问热度进行副本调度,最终优化云
存储结构
[8,9]
;运用副本前测管理副本有效性,从而
适当减少副本存在数量
[10]
;基于可配设置调整云存
储容错级别和冗余度,提高云存储的可靠性
[11]
。后两
者与本研究紧密相关,然而,文献[10]主要兼顾存储
单元的可靠性并以减少冗余度为目的,文献
[11]则从
文件的合理分拆与合并角度来兼顾存储容错度。这与
本研究中基于数学的建模方法、面向整体的数据服务
可靠性视角存在显著差异。
综合上述内容,现有研究多关注副本对云存储
系统负载、效率的影响,面向利用率、可靠性的副
本管理策略、配置问题等。如何在确保可靠的数据
存储和数据应用服务的同时,降低数据副本的冗余
程度是当前云存储机制优化亟待解决的主要问题
之一。为此,本文将针对云存储设备、网络链路的
可靠性建模,并结合数据节点的访问强度,给出判
断数据副本服务的可靠性程度的方法,通过研究提
出适应于资源云存储的副本服务可靠性保障策略。
其中,借鉴领域中的通用可靠概念
[12]
,将数据副本服
务可靠性界定为云存储系统中数据副本能被不失
效访问的概率。
2 系统相关描述与定义
在云存储系统中,数据副本是各应用的访问数
据对象,数据副本宿居于数据节点且由节点的存储
设备提供存储服务,并经通信通道完成最终的访问
服务。因此,存储设备(含拓扑结构)、存储服务
及网络链路等与数据副本服务紧密相关。为了方便
数据副本可靠性建模,对存储设备做如下定义。
定义 1 存储设备
存储设备指对外提供数据块存储服务的存储
节点设备
D,用五元组 D=(C
cpu
, M
com
, N
port
, L
net
, v
d
)
表示。
C
cpu
表示存储服务计算的核心部件,即设备 D
的 CPU;
M
com
表示设备 D 的数据存储部件,为云存储提
供数据存储空间;
N
port
表示设备 D 对外网络传输接口,保证设备
对外提供存取服务的指令与数据信号发送、接收;
L
net
表示设备 D 所在的网络位置,与 N
port
一起
决定了存储服务设备的网络通信质量;
v
d
表示存储服务设备的内部访问执行速度。
定义 2 存储服务
存储服务是指数据节点对外提供数据块的访
问服务,
包括对用户提供数据的存储或读取服务;
在服务节点间的数据调度过程中,数据节点
作为目
标存储节点或数据原始节点对其他数据节点提供
数据存储或读取服务。由此存储服务 WSS 的任务可
表示为一个三元组 WSS=(E,C,D)。
E 表示存储服务执行过程中存储数据节点内部
计算事件,|E|表示服务于存储的计算数据量;
C 表示存储服务的运行业务逻辑中,与存储系
统中存储设备或客户端之间的信息通信事件,其数
据集可为 Ø,而 C 产生的数据量用|C|表示;
D 表示定义 1 中表述的宿居设备。
由于在实际应用中,用户行为、存储设备所在
的环境、数据等多种因素都会影响云存储系统服务
的提供,本文以主要因素为关注核心,将研究限定
在数据节点可靠性与网络链路可靠性这两大不确
定性因素。为了后续讨论的便利,提出以下假设。
假设 1 由于存储服务设备的物理位置相对稳
定,因此设备安全性比较高,假定在工作过程中不
存在任何外界自然因素对其工作性能造成影响,包
括电源供应等。
假设 2 存储服务的执行质量主要依赖于存储
服务设备的 CPU 与 I/O 能力。
假设 3 存储服务设备内部 I/O 能力远大于其
对外网络 I/O 能力,因此服务质量瓶颈主要在于网
络 I/O 能力上,且其下行带宽和上行带宽相互独立。
假设 4 存储服务设备性能和网络性能出现瓶
颈而导致存储服务失效过程服从齐次泊松分布,并
与其他不确定性因素出现的概率相互独立。
假设 5 存储服务对数据节点上的各硬件资源
上的需求工作强度服从对数正态分布。
假设 6 节点设备上的存储服务个数服从齐次
泊松分布。
假设 7 各网络连接无差异,且不考虑除网络
可靠属性之外的其他不确定性因素,包括在传输过
剩余8页未读,继续阅读
资源评论
weixin_38633083
- 粉丝: 0
- 资源: 896
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功