没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
Hadoop分布式文件系统(hadoop distributed file system,HDFS)因其稳定高效?低成本等优势,已被很多大型企业广泛使用?针对HDFS海量小文件存储时元数据服务器节点内存开销过大,合并文件中小文件访问效率不高的问题,提出一种改进的基于混合索引的小文件存储策略,应用分类器分类标记小文件,并在元数据服务器建立H - B + 树索引,在存储节点根据小文件大小建立不同的块内索引,达到提高小文件访问效率的目标?实现中采用缓存结构,以提高客户端访问的响应速度,同时也有利于元数据服务器节
资源推荐
资源详情
资源评论
第 27卷第 1期 重庆邮电大学学报(自然科学版) Vol.27 No.1
2015年 2月 JournalofChongqingUniversityofPostsandTelecommunications(NaturalScienceEdition) Feb.2015
doi:10.3979/j.issn.1673825X.2015.01.017
一种基于混合索引的 HDFS小文件存储策略
收稿日期:20140223 修订日期:20141102 通讯作者:黄容 13340332958@189.cn
基金项目:重庆市教委科学技术研究项目(KJ120513);工信部 2012年物联网发展专项资金(25)
FoundationItems:TheScientificandTechnologicalResearchProgram ofChongqingMunicipalEducationCommission(KJ120513);
TheMIIT2012IOTDevelopmentFundsProject(25)
熊安萍,黄 容,邹 洋
(重庆邮电大学 计算机科学与技术学院,重庆 400065)
摘 要:Hadoop分布式文件系统(hadoopdistributedfilesystem,HDFS)因其稳定高效、低成本等优势,已被很多大型
企业广泛使用。针对 HDFS海量小文件存储时元数据服务器节点内存开销过大,合并文件中小文件访问效率不高
的问题,提出一种改进的基于混合索引的小文件存储策略,应用分类器分类标记小文件,并在元数据服务器建立
H-B+树索引,在存储节点根据小文件大小建立不同的块内索引,达到提高小文件访问效率的目标。实现中采用
缓存结构,以提高客户端访问的响应速度,同时也有利于元数据服务器节点的内存负载。实验结果表明,基于混合
索引的小文件存储策略能有效提高小文件访问效率,并显著降低元数据节点内存开销。
关键词:Hadoop分布式文件系统(HDFS);小文件;元数据服务器;缓存;混合索引
中图分类号:TP393 文献标识码:A 文章编号:1673825X(2015)01009706
AkindofHDFSsmallfilesstoragestrategybasedonhybridindex
XIONGAnping,HUANGRong,ZOUYang
(DepartmentofComputerScienceandTechnology,ChongqingUniversityofPostsandTelecommunications,Chongqing400065,P.R.China)
Abstract:Benefitingfromitsstabilityandefficiency,lowcoststoragecapability,HadoopdistributedfilesystemHDFShas
beenwidelyusedinmanylargeenterprises.However,processingmassivesmallfilesonHDFScoststoomuchmemoryo
verheadofNameNode,andtheefficiencyofaccessingsmallfilesfrommergedfileisnotsatisfactory.Todealwiththesetwo
issues
,thispaperproposesanoptimizingstrategyforstoringandaccessingsmallfiles,thatisSmallFilesStorageStrategy
BasedonHybridIndex.Firstly,thestrategyclassifiesandmarkssmallfilesbyaclassifier.Secondly,H-B+_treeindex
onNameNodeanddifferentblockindexonDataNodearecreatedtoimprovesmallfileaccessefficiency.Finally,toen
hancetheresponsespeedoftheclientaccessrequest
,cachestructureisusedtoreleasememoryloadofNameNode.The
experimentalresultsindicatethatthestrategyisabletoimprovesmallfileaccessefficiency,andsignificantlyreducethe
memoryoverheadofNameNode.
Keywords:hadoopdistributedfilesystem(HDFS);smallfiles;metadataserver;cache;hybridindex
0 引 言
在互联网飞速发展、数据量暴增的时代,各种分
布式 文 件 系 统
[1]
应 运 而 生,如 GlusterFS,Lustre,
GoogleFS,HDFS等。分布式文件系统(hadoopdistrib
utedfilesystem
,HDFS)
[23]
作为 Hadoop的分布式文
件系统,凭借其高可靠性、高扩展性、高效性、高吞吐
率等优势在互联网领域得到了广泛研究和应用。但
其也存在一些不足之处,如:元数据服务器节点单点
故障、负载均衡能力不足、小文件存储及处理问题等。
当前 HDFS中,小文件存储和读取效率普遍不
高,过多小文件元数据占用元数据服务器节点 Nam
资源评论
weixin_38584731
- 粉丝: 7
- 资源: 934
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功