大数据HDFS架构原理.pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
HDFS架构原理 HDFS(Hadoop Distributed File System)是一种分布式文件系统,基于Google发布的GFS论文设计开发。HDFS具有高容错、高吞吐量、大文件存储等特性,适合大文件存储、流式数据访问等场景,但不适合大量小文件、随机写入、低延迟读取等场景。 HDFS设计目标: 1. 硬件失效:HDFS需要监测硬件异常,并自动恢复数据。 2. 流式数据访问:HDFS基于流式方式读取数据,应用程序关注的是吞吐量,而非响应时间。 3. 存储数据较大:HDFS应用程序需要处理大量数据,典型的文件大小为GB到TB级别。 4. 数据一致性:HDFS采用WORM(Write Once Read Many)的数据读写模型,文件仅支持追加,而不允许修改。 5. 多硬件平台:HDFS易于运行不同的平台上。 6. 移动计算能力:HDFS采用就近原则,计算和存储采用就近原则,减少网络的负载,降低网络拥塞。 HDFS架构: HDFS架构主要采用主备模式,由NameNode、DataNode、Client三个部分组成: 1. NameNode:NameNode用于存储、生成文件系统的元数据,运行一个实例。 2. DataNode:DataNode用于存储实际的数据,将自己管理的数据块上报给NameNode,运行多个实例。 3. Client:支持业务访问HDFS,从NameNode、DataNode获取数据返回给业务,多个实例,和业务一起运行。 HDFS数据读取流程: 1. 业务应用调用HDFS Client提供的API打开文件。 2. HDFS Client联系NameNode,获取到文件信息(数据块、DataNode位置信息)。 3. 业务应用调用read API读取文件。 4. HDFS Client根据从NameNode获取到的信息,联系DataNode,获取相应的数据块。 5. HDFS Client会与多个DataNode通讯获取数据块。 6. 数据读取完成后,业务调用close关闭连接。 HDFS架构关键设计: 1. 高可靠性:HDFS需要监测硬件异常,并自动恢复数据。 2. 高吞吐量:HDFS基于流式方式读取数据,应用程序关注的是吞吐量,而非响应时间。 3. 大文件存储:HDFS支持存储TB-PB级别的数据。 4. 数据一致性:HDFS采用WORM(Write Once Read Many)的数据读写模型,文件仅支持追加,而不允许修改。 HDFS是一种高效、可靠、可扩展的分布式文件系统,适合大文件存储、流式数据访问等场景。
- jiangbinggui2022-08-16资源很好用,有较大的参考价值,资源不错,支持一下。
- 粉丝: 8995
- 资源: 19万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助