没有合适的资源?快使用搜索试试~ 我知道了~
基于Ceph的数据读写性能优化研究1
需积分: 0 0 下载量 55 浏览量
2022-08-03
14:55:56
上传
评论
收藏 1.05MB PDF 举报
温馨提示
试读
65页
摘要I1 绪论1.1 引言 11.2 国内外研究现状 21.3 主要工作及论文组织结构 42 相关研究及关键技术2.1 硬盘工作原理 72.1.1 机械硬盘工作
资源详情
资源评论
资源推荐
武汉邮电科学研究院硕士学位论文
基于 Ceph 的数据读写性能优化研究
The Research on The Optimization of
Read-write Performance for Ceph
专业
:
通信与信息系统
研 究 方 向
:
云存储系统
导师
:
蒋玉玲
研究生
:
王筱橦
学号
:
20170045
二〇二〇年四月
武汉邮电科学研究院硕士学位论文
独创性声明
本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果,
除了文中特别加以标注的地方外,没有任何剽窃、抄袭、造假等违反学术道德、学术规
范的行为,也没有侵犯任何其他人或组织的科研成果及专利。与我一同工作的同志对本
研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。如有任何侵权行为,
本人愿意为此独立承担全部责任。
作者签名:__ ________签字日期:
关于论文使用授权的说明
本人完全了解武汉邮电科学研究院(烽火科技集团)有关保留、使用学位论文的规
定,本文知识产权归武汉邮电科学研究院所有,武汉邮电科学研究院有权保留送交论文
的复印件和电子版本,允许论文被查阅和借阅。同意将本人的学位论文提交中国学术期
刊(光盘版)电子杂志社全文出版并收入《中国学位论文全文数据库》。
公开 保密一年 保密两年
(注:保密的学位论文在解密后遵守此协议)
作者签名: 签字日期:
导师签名: 签字日期:
武汉邮电科学研究院硕士学位论文
I
摘 要
Ceph 是一款去中心化的开源分布式存储系统,由于其统一接口、具有良好
的可扩展性和可用性,因此被广泛应用于生产实践中。由于 Ceph 去中心化的架
构,所有存储节点都参与元数据的存储与管理,所以各存储节点除处理数据存
储外,还需处理频繁的元数据读写操作。除此之外,Ceph 在存储数据时,存在
数据切分及 Hash 散列操作,这些操作会降低数据单元的大小及连续性。考虑到
Ceph 的这些特性,如果单纯使用机械硬盘作为后端全量数据的存储介质,将极
大限制 Ceph 的性能。由于固态硬盘成本较高,在大规模数据存储场景下,也不
适合作为后端全量数据的存储介质。因此设计一种固态硬盘和机械硬盘的混合
存储方案对优化 Ceph 读写性能尤为重要。
因此本文从混合存储角度出发展开对 Ceph 读写性能的研究,并取得了如下
成果:
(1) 设计并实现了完整的硬盘级混合存储优化方案,经实验验证该方案极大
程度提升了基于 Ceph 创建的单个虚拟硬盘的 IOPS 性能和吞吐量性能。
(2) 针对 Ceph 提供的 Cache Tier 混合存储方案所采用的淘汰算法的缺陷,
设计了一种基于高斯分布的缓存淘汰算法。经仿真实验验证,在用户访问符合
高斯分布的场景下,该算法较 LRU 及 LRU-2 算法命中率性能更优且更接近理
论极限。
关键词:Ceph;分布式存储;混合存储;Cache Tier;淘汰算法
武汉邮电科学研究院硕士学位论文
II
Abstract
Ceph is a decentralized open source distributed storage system. Because of its
unified interface, good scalability and availability, it is widely used in production
practice. Because of Ceph’s decentralized architecture, all storage nodes need to store
and manage metadata. So there is going to be a lot of small random chunks of data to
read or write. In addition, Ceph shred and hashes the data block as it processes read or
write request. As a result, the consistency and size of data blocks are reduced.
Considering these feature of Ceph, if the storage all use only HDD, it will greatly
limit the performance of Ceph. Although SSD can meet the needs of Ceph, their cost
is too high. Therefore, it is not suitable to use SSD to store all data in Ceph. Designing
a hybrid plan based on SSD and HDD is important to optimize Ceph’s performance.
Therefore, this paper studies the read-write performance of Ceph from the
perspective of hybrid storage, and achieves the following results:
(1) A complete hybrid storage optimization scheme is designed and implemented.
Experiments show that this scheme improves the IOPS and throughput of the virtual
hard disk which created by Ceph greatly.
(2) In order to solve the algorithm defect of Cache Tier, An elimination
algorithm based on gaussian distribution is designed. Simulation results show that this
algorithm performs better than LRU and LRU-2 when user access conforms to a
gaussian distribution.
Key words: Ceph; Distributed storage system; Hybrid storage; Cache Tier;
Elimination algorithm
武汉邮电科学研究院硕士学位论文
目 录
摘 要 ........................................................................................................... I
Abstract ...................................................................................................... II
1 绪论
1.1 引言 ..................................................................................................... 1
1.2 国内外研究现状 ................................................................................ 2
1.3 主要工作及论文组织结构 ................................................................ 4
2 相关研究及关键技术
2.1 硬盘工作原理 .................................................................................... 7
2.1.1 机械硬盘工作原理 ......................................................................... 7
2.1.2 固态硬盘工作原理 ......................................................................... 8
2.2 FlashCache 技术 ............................................................................... 10
2.3 Ceph 的架构及关键技术 ................................................................. 11
2.3.1 Ceph 的整体架构 .......................................................................... 11
2.3.2 RADOS 的数据映射机制 ............................................................. 12
2.3.3 RADOS 的数据读写流程 ............................................................. 15
2.3.4 Cache Tier 机制 ............................................................................. 18
2.4 本章小结........................................................................................... 20
3 硬盘级混合存储方案设计与实现
3.1 优化方案的设计原理 ...................................................................... 21
3.2 硬盘管理组件的设计 ...................................................................... 22
3.3 优化方案的实现 .............................................................................. 24
3.3.1 固态硬盘空间默认划分 ............................................................... 24
3.3.2 固态硬盘空间管理模块 ............................................................... 26
剩余64页未读,继续阅读
daidaiyijiu
- 粉丝: 13
- 资源: 322
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0