没有合适的资源?快使用搜索试试~ 我知道了~
HDFS存储系统浅析.doc
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 95 浏览量
2022-07-05
09:15:12
上传
评论
收藏 224KB DOC 举报
温馨提示
![preview](https://dl-preview.csdnimg.cn/85906169/0001-974ff1b46ee7a05dc1157e73e2330b62_thumbnail-wide.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
试读
11页
HDFS存储系统浅析
资源推荐
资源详情
资源评论
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![xmind](https://img-home.csdnimg.cn/images/20210720083646.png)
![mp4](https://img-home.csdnimg.cn/images/20210720083504.png)
![mp4](https://img-home.csdnimg.cn/images/20210720083504.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/release/download_crawler_static/85906169/bg1.jpg)
学 号:
题 目 HDFS 数据存储系统浅析
学 院
专 业
班 级
姓 名
课 程
中间件技术与应用
年 月 日
![](https://csdnimg.cn/release/download_crawler_static/85906169/bg2.jpg)
HDFS 数据存储系统浅析
摘 要 : Hadoop Distributed File System , 简 称 HDFS , 是 一 个 分 布 式 文 件 系 统 。
HDFS 有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)
硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着
超大数据集(large data set)的应用程序。。本文主要有两部分组成,一部分是分析
HDFS 的基本特征和结构,比较它与其它分布式并行文件系统的异同点,从而理解 HDFS 的
设计思想和目标;另一部分是描述了 HDFS 的数据管理机制。HDFS 是一个适合部署在廉价
的机器上,具有高传输率、高容错性等特点的系统,以流的形式访问文件系统中的数据,从
而解决访问速度和安全性问题,非常适合大规模数据集上的应用。
关键词:Hadoop; HDFS;并行文件系统;大规模数据集
1 引言
Hadoop 是 Apache 下的一个子项目,它原先是 Nutch 项目的组成部分,于 2006 年
初从 Nutch 中分离出来成为一个独立的项目。Hadoop 是一种易于扩展的分布式计算架构,
能够将廉价 PC 节点联合起来提供大型计算服务。它完全使用 Java 语言开发,因而可以广
泛 运 行 在 多 种 软 硬 件 平 台 上 。 其 主 要 优 点 是 : 可 扩 展 性 (Scalable) 、 低 成 本
(Economical)、高效性(E'cient)、可靠性(Reliable)。但是也有一些不足的地方,如:
1)与其他文件系统的兼容操作效率较低;
2)难以处理实时性要求较高的应用;
3)目前缺乏稳定版本的开发接口为应用造成障碍。
如图 1 所示,Hadoop 逻辑上分为两层:分布式文件系统 HDFS(Hadoop Distributed
File System)、MapReduce 并行计算框架。
Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)是开源云计算
软件平台 Hadoop 框架的底层实现部分,适合运行在通用硬件上的分布式文件系统,具有
高容错性,能提供高吞吐量的数据访问,非常适合于大规模数据集上的应用。
MapReduce 是在 HDFS 的基础上实现的并行框架,为用户提供容易使用的并行编程模
式,MapReduce 计算包括两个阶段,Map(映射)阶段和 Reduce(规约)阶段。首先,Map
函数把一组(Key,Value)输入,映射为一组中间结果 (Key,Value),然后通过 Reduce 函数
把具有相同 Key 值的中间结果,进行合并化简。MapReduce 将计算作业分成许多小的单
元,同时数据也会被 HDFS 分为多个 Block,并且每个数据块被复制多份,保证系统的可靠
性,HDFS 按照一定的规则将数据块放置在集群中的不同机器上,以便 MapReduce 在数据
![](https://csdnimg.cn/release/download_crawler_static/85906169/bg3.jpg)
宿主机器上进行计算。
图 1 hadoop 结构图
2 分布式文件系统 HDFS
HDFS 被设计为将海量文件存储在一个大集群的多台计算机上。HDFS 的设计是受到了
GFS 地启发。HDFS 将每一个文件以分块序列的形式进行存储,一个文件的所有分块除去最
后一个分块外都是等大小的。为了实现容错将文件分块进行自动复制。文件分块的块大小和
复制比例都是可以按照单个文件进行配置的。HDFS 中的所有文件都是“只写一次”并且严格
限定在任何时候只有一个写文件操作者。
2.1 HDFS 基本特征
HDFS 是 Hadoop 框架的分布式并行文件系统,是分布式计算的存储基石。它负责数
据分布式存储及数据的管理,并能提供高吞吐量的数据访问。HDFS 的基本特征如下:
(l)对于整个集群有单一的命名空间。
(2)文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置
会有复制的文件块来保证数据安全性。
(3)数据一致性。适合一次写入多次读取的模型,客户端在成功创建文件之后,才能看
到文件的存在。
(4)Hadoop,包括 HDFS,非常适合在廉价机器上的分布式存储和分布式处理。它是
容错的、可伸缩的 、非常易于扩展。并且,以简单性和适用性著称的 MapReduce 是
Hadoop 不可缺少的重要组成部分。
(5)HDFS 的默认配置适合于大多数安装的应用。通常情况下,只有在一个非常大规模
剩余10页未读,继续阅读
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/default.jpg!1)
老帽爬新坡
- 粉丝: 83
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)