没有合适的资源?快使用搜索试试~ 我知道了~
基于客户端缓存与请求调度的Ceph文件系统读时延优化策略研究1
需积分: 0 0 下载量 182 浏览量
2022-08-03
12:45:08
上传
评论
收藏 8.88MB PDF 举报
温馨提示
试读
78页
课题背景(1)国内外研究现状(2)主要工作和论文组织结构 (3)相关技术研究分布式文件系统(5)数据分布算法(8)
资源详情
资源评论
资源推荐
分类号 学号
M201472528
学校代码 1 0 4 8 7 密级 1
硕 士 学 位 论 文
基于客户端缓存与请求调度的
Ceph 文件系统读时延优化策略研究
学位申请人
:
唐 蜜
学 科 专 业
:
计算机科学与技术
指 导 教 师
:
谢长生 教授
答 辩 日 期
:
2017.5.22
A Thesis Submitted in Partial Fulfillment of the Requirements
for the Degree of Master of Engineering
Shortening the Read Latency of Ceph through
Improving the Client-side Data Cache and Read Request
Scheduling Scheme
Candidate : Tang Mi
Major : Computer Science and Technology
Supervisor : Prof. Xie Changsheng
Huazhong University of Science and Technology
Wuhan, Hubei 430074, P. R. China
May, 2017
独
创
性
声 明
本
人
声 明
所
呈
交
的 学位
论
文
是
我个
人
在 导 师 指
导
下
进 行
的
研
究
工
作
及
取得 的
研
究
成 果
。
尽
我
所 知
,
除文 中
已
经
标 明
引 用 的
内
容
外 ,
本
论 文不
包
含任
何
其他
个
人或
集
体
已
经
发
表
或撰写 过
的
研
究
成果
。
对
本
文
的
研
究 做 出 贡
献
的
个
人
和
集
体
, 均 已
在
文 中 以 明 确 方 式标 明
。
本 人 完
全
意
识
到 本
声 明 的
法
律
结 果 由
本人
承
担
。
学
位
论文
作
者
签
名 ;
I
f
日 期
:
年
5
月 2 3 日
学
位
论
文
版
权使 用 授
权
书
本
学
位
论
文 作
者
完
全
了
解
学
校
有
关保 留
、
使
用 学
位
论
文
的
规
定 , 即
:
学
校有
权
保
留 并 向 国 家 有关部 门
或
机构
送
交
论 文
的
复印 件和
电
子 版 ,
允
许论
文
被
查
阅和
借阅
。
本
人
授
权华 中 科技大 学
可
以
将 本
学
位
论文
的
全
部
或
部 分
内
容
编
入
有
关
数
据 库
进
行 检
索
,
可
以 采用 影 印
、
缩 印
或
扫
描 等复 制
手
段
保
存 和
汇
编 本学
位
论 文 。
保
密
□
,
在
年
解
密
后
适
用
本 授权 书
。
本
论
文 属
于
不
保
密 ¥
(
请
在
以
上
方
框
&打
“
V
”
)
学
位论 文
作
者
签
名 : 唐
餐
指 导
獅
签
多
,
日 期
;
年
5
月
乃
日
日
齡
2
0
)
1
年
5
^2 3 日
I
华 中 科 技 大 学 硕 士 学 位 论 文
摘 要
分布式文件系统以其可靠性高、容量大与扩展性强的优势,成为当前海量数据
存储的主流选择。在大量分布式文件系统的应用场景中,读操作都占有较高的比例。
此外,相对于写操作,读操作对于时延更加敏感,因此减少读访问操作的耗时对分
布式文件系统而言有着重要意义。
通过分析典型的开源 Ceph 分布式文件系统的数据访问流程,发现在其读请求处
理过程中,请求的数据在网络层的传输延迟及请求在节点的服务延迟在整个读延迟
中占据主导地位。因此,针对性地做出了设计以对二者进行优化。
依据 Ceph 中文件对象条带化规则,利用局部性原理进行对象预取操作,提升客
户端的数据命中率,减少未命中情况下对象存储节点的读取操作次数,从而减少时
延较长的网络传输。具体而言,设计动态调整算法来设置预取窗口大小,使缓存命
中率趋于最优;根据预取的对象内容,重新设计客户端缓存,使用两级队列管理,
按照数据命中与预取的特点对缓存进行分类,并对分类的数据进行合理分割与合并
管理。
根据 Ceph 数据定位算法的输出经过调度优化来选择合适的目标位置,综合集群
拓扑图的最小同根域距离与共享工作队列的 I/O 信息实现的调度算法,可使 Ceph 读
访问达到均衡,从而降低访问热点造成的节点排队可能,减小排队带来的额外延迟。
最后,通过将上述两种优化方案集成到 Ceph 系统中构建原型平台。测试结果表
明,两方案均能有效提升系统性能或改善各节点负载均衡程度。具体而言,相较于
原系统,自适应对象分片预取可使得读请求的响应时间平均下降 13.73%,而读调度
算法则可使得各节点负载的方差最多减少 17.6%。
关键词:分布式文件系统,对象预取,自适应,读调度
II
华 中 科 技 大 学 硕 士 学 位 论 文
Abstract
At the era of information, the distributed file system has become main choice for
mass data storage with the advantage of high reliability
、
large capacity and scalability. In
the application of distributed file system, read operations hold a high proportion.
Additionally, the read operation is more sensitive to delay than write operation. Therefore,
reducing read access latency plays a important role on the performance of the system.
As for research on data access process of open source Ceph, it is found that the
transmission delay of the requested data in the network layer and the service delay of read
request in the nodes are dominant during the read request processing. Two design
optimization is targetedly performed.
Object prefetching is designed according to the principle of the object file striping in
Ceph and local principle, which improves hit rate of the client data, and reduces the longer
network transmission delay. To improve the accuracy of prefetching, the paper designs the
dynamic adjustment algorithm to set the size of the prefetching window which makes the
cache hit rate tend to be optimal. The two-level queue is applied to manage the object in
client cache which are classified cached data and prefetching data.
Read scheduling is used to reduce the consuming time of nodes, which selects target
node among the output from data location algorithm. The scheduling optimization
algorithm takes into consideration of the influence by two factors: the minimum area on
the topological graph of the cluster and the I/O operators in the shared working queue,
which can make the read operation of Ceph balanced. Thus, it can reduce the extra delay
in the node queue caused by hot spots.
Finally, the two optimization schemes are integrated into the Ceph system to build
prototype platform. The test results show the two schemes effectively improve the system
performance or improve the load balance of each node. Comparing with the original
system, the adaptive object prefetching make response time of the read request decline
13.73%, and the scheduling algorithm make the load variance of each node reduce 17.6%.
Keywords: The distributed file system, Object prefetching, Adaptive, Read schedule
剩余77页未读,继续阅读
本本纲目
- 粉丝: 20
- 资源: 294
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0