没有合适的资源?快使用搜索试试~ 我知道了~
本文来自于简书,本文主要介绍为什么需要分布式文件系统以及HDFS对文件的存储读取和如何使用HDFS,希望对您的学习有所帮助。HDFS作为Hadoop的核心部分,是Hadoop中MapReduce框架的存储层。当文件的大小超过了单台计算机的存储能力时,就需要将其分区存储在不同单独的计算机上。分布式文件系统概念图文件系统的三个主要组成部分:被管理的文件、文件管理相关软件、实施文件管理所需要的数据结构将文件分布式存储后带来的问题:文件不完整,系统复杂度加大,引入网络编程HDFS以流处理访问模式来存储文件什么是流处理访问模式呢?为什么分布式文件系统场景下这种文件访问模式更合适?操作系统中文件访问方式有
资源推荐
资源详情
资源评论
Hadoop大数据平台架构与实践大数据平台架构与实践|HDFS
HDFS作为Hadoop的核心部分,是Hadoop中MapReduce框架的存储层。
1、为什么需要分布式文件系统
当文件的大小超过了单台计算机的存储能力时,就需要将其分区存储在不同单独的计算机上。
分布式文件系统概念图文件系统的三个主要组成部分:被管理的文件、文件管理相关软件、实施文件管理所需要的数据结构
将文件分布式存储后带来的问题:文件不完整,系统复杂度加大,引入网络编程
2、HDFS对文件的读取方式:流处理访问模式
HDFS以流处理访问模式来存储文件什么是流处理访问模式呢?为什么分布式文件系统场景下这种文件访问模式更合适?
操作系统中文件访问方式有好几种,常见的是随机数据访问方式,这种方式要求文件定位、查询或者修改数据的延迟比较小,
比较适合常见数据后多次查询、读写的场景,传统关系型数据库非常符合这一点。
大数据场景与关系系数据库的场景有非常大的不同。大数据的数据源通常由源生成或从数据源直接复制而来,接着长时间在此
数据集上进行各类分析,不需要搬来搬去;这种数据访问场景是典型的一次写入,多次读取的场景(写入数据只需要生成数据
的那一次,基本没有修改数据的要求,后面就是多次读取以分析),所以这种场景下的数据访问方式更适合采用流处理方式。
流处理数据访问方式试磁盘寻址开销最小化:只需要一次寻址(起始地址),然后就是连续的流式读取。硬盘的物理构造导致
寻址开销的优化跟不上读取开销,所以流式读取更加适合硬盘的本身特性,当然大文件的特点也更适合流式读取。
流处理模型: HDFS存储的数据集作为Hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。每次分析
都将设计该数据集的大部分数据甚至全部数据,因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要
HDFS是用流处理方式处理文件,每个文件在系统里都能找到它的本地化映像,所以对于用户来说,不用关心文件是什么格式
的,也不用在意被分到哪里,只管从HDFS里取出就可以了。
3、HDFS对文件的存储方式:分片冗余存储
压缩存储
先说一说压缩存储。
在存储资源无法满足数据量增长时,需要对数据压缩后再存储,重复数据删除技术是无损压缩的技术之一,它的基本原理是对
目标文件分块,然后以块为单位进行重复内容的比对,若发现内容相同的数据块,只在存储介质上存放一份,并记录相关逻辑
关系,从而减少实际存储开销。
这种数据压缩方式影响数据的安全性和可用性,如下图:
数据单元2只属于文件C,因此数据单元2故障只会影响文件C;而数据单元5同时属于4个文件,它故障了会同时影响4个文件
不能正常使用。
冗余存储
为了保证分布式存储后的文件具有高可用性,采用冗余存储这种容错策略。常用的方法是数据复制技术、纠删码技术。
/ 数据复制技术 /
数据复制技术是副本冗余策略,对存储系统中的数据块进行多处副本保存(存储开销相对较大)。
就数据而言,HDFS采用每份数据3副本的方式,保证某些数据损失之后仍能继续使用。
剩余6页未读,继续阅读
资源评论
weixin_38630612
- 粉丝: 5
- 资源: 891
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功