一种广域网环境下的分布式冗余删除存储系统一种广域网环境下的分布式冗余删除存储系统
分布式存储系统中存储了海量的数据,这些数据中存在着大量的冗余,将冗余数据删除技术应用到分布式存储系
统当中,用来发现并去除数据中的冗余,可以有效地提高存储空间以及网络带宽利用率。文章设计并实现了广
域网环境下的分布式冗余删除存储系统——AegeanStore。该系统在数据被上传之前将冗余数据去除,达到提高
存储资源和网络资源利用率的目的,并且进一步地降低存储系统的成本,在保持分布式系统固有的容灾特性的
同时,可提高存储系统的可扩展性和整体性能。
英文摘要:The problem of redundancy often occurs in mass data stored in distributed storage systems. Greater efficiency in
storage and network bandwidth utilization can be achieved by employing de-duplication techniques to eliminate this problem.
This article introduces the design and implementation of redundancy-removal systems in a distributed WAN environment.
AegeanStore can eliminate redundancy prior to data being uploaded. This frees up storage space and resource use, and
lowers the total cost of storage. Furthermore, disaster recovery features inherent in the distributed system are maintained,
storage system scalability is enhanced, and overall performance of the network is improved.
英文关键字:distributed system; storage system; de-duplication
基金项目:国家重点基础研究发展(“973”)规划(2007CB311100)
由于数字信息的爆炸式增长,现今的大规模网络应用中所存储的数据规模,可以到达上百太字节甚至拍字节的数量级。而传统
的
广域网环境下的分布式存储系统将分布在广域网上的资源整合在一起,为网络应用提供存储服务平台。来自不同网络应用和用
户的数据存储其中,这些海量的数据中存在着大量的冗余。这些冗余数据不仅在存储时占据了存储系统大量的存储空间,并且
在被传输到存储系统的过程当中,浪费了大量的网络用户、网络应用和存储系统的网络带宽资源,使存储系统的资源利用率和
整体性能受到严重影响。
本文提出一种在广域网环境下的采用
1 冗余数据删除技术
冗余数据删除技术是将数据集中的冗余数据发现并去除的应用技术,可以分为两大类:相同数据删除和相似数据删除[2]。
1.1 相同数据删除技术
相同数据删除技术首先将数据划分为数据块,然后使用具有抗碰撞特性[3]的哈希函数计算每一个数据块的哈希值作为该数据
块的数字指纹,再通过比较数据块的数字指纹来发现相同的数据块。目前,最常用的相同数据删除技术是基于内容的划块
(CDC)算法[4],其流程如图1所示。
CDC算法存在3个参数,一是目标可变数据块的预期大小S,二是滑动窗口的大小W,三是一个小于S的自然数M。当使用
CDC算法处理一个文件时,从文件头开始以每次一字节的步长向后滑动窗口,使用哈希函数计算滑动窗口内部的哈希值H;将
H mod S与M进行比较,如果不同,则滑动窗口;如果相同,则发现数据块边界,然后用具有抗碰撞特性的哈希函数计算该数
据块的数字指纹;最后,将获得的数字指纹到索引中查找,如果存在则发现冗余数据块,否则说明该数据块是新的,需要存储
到系统当中。
1.2 相似数据删除技术
相似数据删除技术分为两个阶段,相似数据检测和相似数据编码:
(1)相似数据检测,首先要定义数据的特征值,该特征值的特点是保证具有相同或相似的特征值的数据具有相同或相似的内
容。在提取数据的特征值之后,通过特征值的比较获得相似的数据。常用的相似数据检测技术包括基于Shingle的检测技术
[5]。
(2)相似数据编码是在使用相似数据检测,获得具有相似性的数据集之后,在该数据集上采用的编码技术,用于减小该数据集
评论0
最新资源