Hadoop HDFS文件系统技术概述.pptx
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
Hadoop HDFS文件系统技术概述 Hadoop Distributed File System(HDFS)是一种分布式文件系统,旨在提供高容错、可靠、可扩展的文件存储解决方案。HDFS来自Google的GFS(Google File System),是GFS的开源版本。 HDFS的特点: 1. 高容错:HDFS可以在廉价的机器上运行,具有高容错性,通过副本机制来确保数据的可靠性。 2. 适合批处理:HDFS适合批处理应用场景,能够处理大量数据,高吞吐率,支持异构存储。 3. 流式文件访问:HDFS支持流式文件访问,提供高吞吐率的数据读写能力。 HDFS的优点: 1. 高容错:HDFS可以自动保存多个副本,通过增加副本来提高容错性。 2. 适合批处理:HDFS适合批处理应用场景,能够处理大量数据,高吞吐率,支持异构存储。 3. 流式文件访问:HDFS支持流式文件访问,提供高吞吐率的数据读写能力。 HDFS的缺点: 1. 低延时数据访问:HDFS不适合低延时数据访问场景,读取数据需要毫秒级的时间。 2. 小文件存储:HDFS不适合小文件存储,小文件会占用NameNode的大量内存来存储文件、目录和块信息。 3. 并发写入、文件随机修改:HDFS不支持并发写入、文件随机修改,仅支持数据追加。 HDFS在Hadoop生态系统中的位置: HDFS是Hadoop生态系统的核心组件之一,提供了分布式文件存储解决方案。HDFS架构主要由四个部分组成:HDFS Client、NameNode、DataNode和SecondaryNameNode。 HDFS Client: * 文件切分:文件上传到HDFS时,Client将文件切分成一个一个的Block,然后进行存储。 * 与NameNode交互:获取文件的位置信息。 * 与DataNode交互:读取或者写入数据。 * 提供命令来管理HDFS,例如启动或关闭HDFS。 * 可以通过命令来访问HDFS。 NameNode: * master,管理HDFS的名称空间。 * 管理数据块(Block)映射信息。 * 配置副本策略。 * 处理客户端读写请求。 DataNode: * Slave,NameNode下达命令,DataNode执行实际的操作。 * 存储实际的数据块。 * 执行数据块的读/写操作。 SecondaryNameNode: * 辅助NameNode,分担NameNode工作量。 * 定期合并fsimage和edits,并推送给NameNode。 * 执行合并时机。 * 根据配置文件设置的时间间隔fs.checkpoint.period默认3600秒。 * 根据配置文件设置edits log大小fs.checkpoint.size规定edits文件的最大值默认是64MB。 * 在紧急情况下,可以辅助恢复NameNode。 HDFS的体系结构: HDFS的体系结构主要由四个部分组成:HDFS Client、NameNode、DataNode和SecondaryNameNode。HDFS Client负责文件切分和上传,NameNode负责管理HDFS的名称空间和数据块映射,DataNode负责存储实际的数据块,SecondaryNameNode负责辅助NameNode和分担工作量。 HDFS是一种高容错、可靠、可扩展的分布式文件系统,广泛应用于大数据处理领域。
- 粉丝: 1w+
- 资源: 19万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助