11HDFS的读写流程&NameNode、DataNode工作机制—

5星 · 超过95%的资源 176 浏览量 2021-01-20 12:32:24 上传评论收藏 1.95MB PDF 举报

一、 HDFS前言设计思想分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析；在大数据系统中作用：为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务重点概念：文件切块，副本存放，元数据二、 HDFS的概念和特性首先，它是一个文件系统，用于存储文件，通过统一的命名空间——目录树来定位文件其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色；重要特性如下： HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( df 【HDFS概述】 Hadoop Distributed File System（HDFS）是一种基于分布式计算的文件系统，它遵循“分而治之”的原则，将大文件和大量文件分割成小块，并在多台服务器上分布式存储，以便于并行处理和分析大规模数据。在大数据处理中，HDFS为各种分布式计算框架如MapReduce、Spark、Tez等提供了数据存储服务。【HDFS的核心组件】 1. NameNode：作为HDFS的主节点，NameNode主要负责维护文件系统的元数据，包括文件和目录的名称空间、文件的Block到DataNode的映射关系。这些信息以两个关键文件形式存在：fsimage（文件系统元数据的静态快照）和edit logs（记录所有改变的事务日志）。NameNode还处理客户端的文件系统操作请求，如打开、关闭、重命名文件或目录。 2. DataNode：DataNode是HDFS的从节点，它们实际存储数据块（Block）。每个Block可以有多个副本，存储在不同的DataNode上，增强了数据的容错性和可用性。DataNode定期向NameNode发送心跳信息和Block报告，确保NameNode了解数据的最新状态。【HDFS的特性】 1. 分块存储：HDFS中的文件被划分为固定大小的Block，默认大小为128MB。这种设计使得文件可以跨多台机器分散存储，便于并行处理。 2. 副本机制：每个Block通常有3个副本，提高了数据的可靠性。副本的数量可以通过配置参数`dfs.replication`进行调整。 3. 一次写入，多次读取：HDFS设计为不适合频繁修改文件，更适合大数据的批处理任务，因为更新文件需要重新写入所有副本，成本较高。 4. 统一命名空间：HDFS提供了一个类似Unix的目录树结构，客户端通过路径（如`hdfs://namenode:port/path`）来访问文件。【HDFS的读写流程】 1. 写入流程：客户端首先与NameNode通信，获取目标文件的Block信息。然后，NameNode指示客户端将Block写入DataNode，通常是按照副本策略选择DataNode。写入完成后，客户端通知NameNode，NameNode更新元数据。 2. 读取流程：客户端同样先与NameNode交互，获取文件Block的位置信息。接着，客户端直接从最近或负载较低的DataNode读取Block。如果读取过程中出现故障，客户端可以自动切换到其他副本。【HDFS的Shell操作】 HDFS提供了命令行工具（shell客户端），用于与HDFS进行交互，如创建目录、上传/下载文件、查看文件信息、删除文件等。以下是一些常用命令： - `hdfs dfs -ls`: 列出目录内容 - `hdfs dfs -put`: 从本地文件系统向HDFS上传文件 - `hdfs dfs -get`: 从HDFS下载文件到本地 - `hdfs dfs -rm`: 删除HDFS上的文件或目录这些命令允许用户在HDFS上执行常见的文件操作，方便了HDFS的管理和使用。 HDFS通过其独特的架构和机制，实现了对大规模数据的高效存储和处理，是大数据生态系统中的重要组成部分。理解和掌握HDFS的工作原理和操作方式对于使用Hadoop平台进行大数据处理至关重要。

资源推荐

资源详情

资源评论

11HDFS的读写流程的读写流程&NameNode、、DataNode工作机制工作机制——好程序好程序

一、一、 HDFS前言前言

设计思想

分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析；

在大数据系统中作用：在大数据系统中作用：

为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务

重点概念：文件切块，副本存放，元数据文件切块，副本存放，元数据

二、二、 HDFS的概念和特性的概念和特性

首先，它是一个文件系统，用于存储文件，通过统一的命名空间——目录树来定位文件

其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色；

重要特性如下：重要特性如下：

HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M

HDFS文件系统会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data

目录结构及文件分块信息(元数据)的管理由namenode节点承担 ——namenode是HDFS集群主节点，负责维护整个hdfs文件系统的目录树，以及每一个路径（文件）所

对应的block块信息（block的id，及所在的datanode服务器）

文件的各个block的存储管理由datanode节点承担 —- datanode是HDFS集群从节点，每一个block都可以在多个datanode上存储多个副本（副本数量也可以通过参数设

置dfs.replication）

HDFS是设计成适应一次写入，多次读出的场景，且不支持文件的修改

三、三、 HDFS的的shell(命令行客户端命令行客户端)操作操作

3.1 HDFS命令行客户端使用命令行客户端使用

HDFS提供shell命令行客户端，使用方法如下：

3.2 命令行客户端支持的命令参数：命令行客户端支持的命令参数：hdfs dfs

[-appendToFile ... ] [-cat [-ignoreCrc] ...] [-checksum ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] PATH...] [-chown [-R] [OWNER][:[GROUP]] PATH...] [-copyFromLocal [-f] [-p]

... ] [-copyToLocal [-p] [-ignoreCrc] [-crc] ... ] [-count [-q] ...] [-cp [-f] [-p] ... ] [-createSnapshot []] [-deleteSnapshot ] [-df [-h] [ ...]] [-du [-s] [-h] ...] [-expunge] [-get [-

p] [-ignoreCrc] [-crc] ... ] [-getfacl [-R] ] [-getmerge [-nl] ] [-help [cmd ...]] [-ls [-d] [-h] [-R] [ ...]] [-mkdir [-p] ...] [-moveFromLocal ... ] [-moveToLocal ] [-mv ... ] [-put

[-f] [-p] ... ] [-renameSnapshot ] [-rm [-f] [-r|-R] [-skipTrash] ...] [-rmdir [--ignore-fail-on-non-empty] ...] [-setfacl [-R] [{-b|-k} {-m|-x } ]|[--set ]] [-setrep [-R] [-w] ...] [-stat [format] ...]

[-tail [-f] ] [-test -[defsz] ] [-text [-ignoreCrc] ...] [-touchz ...] [-usage [cmd ...]]

3.2 常用命令参数介绍常用命令参数介绍

-help

功能：输出这个命令参数手册

-ls

功能：显示目录信息

示例： hadoop fs -ls hdfs://hadoop-server01:9000/

备注：这些参数中，所有的hdfs路径都可以简写 -> hadoop fs -ls / 等同于上一条命令的效果

-mkdir

功能：在hdfs上创建目录

示例：hadoop fs -mkdir -p /aaa/bbb/cc/dd

-moveFromLocal

功能：从本地剪切粘贴到hdfs

示例：hadoop fs - moveFromLocal /home/hadoop/a.txt /aaa/bbb/cc/dd

-moveToLocal

功能：从hdfs剪切粘贴到本地

示例：hadoop fs - moveToLocal /aaa/bbb/cc/dd /home/hadoop/a.txt

--appendToFile

功能：追加一个文件到已经存在的文件末尾

示例：hadoop fs -appendToFile ./hello.txt hdfs://hadoop-server01:9000/hello.txt

可以简写为：

Hadoop fs -appendToFile ./hello.txt /hello.txt

-cat

功能：显示文件内容

示例：hadoop fs -cat /hello.txt

-tail

功能：显示一个文件的末尾

示例：hadoop fs -tail /weblog/access_log.1

-text

功能：以字符形式打印一个文件的内容

示例：hadoop fs -text /weblog/access_log.1

-chgrp

-chmod

-chown

功能：linux文件系统中的用法一样，对文件所属权限

示例：

hadoop fs -chmod 666 /hello.txt

hadoop fs -chown someuser:somegrp /hello.txt

-copyFromLocal

功能：从本地文件系统中拷贝文件到hdfs路径去

示例：hadoop fs -copyFromLocal ./jdk.tar.gz /aaa/

-copyToLocal

功能：从hdfs拷贝到本地

示例：hadoop fs -copyToLocal /aaa/jdk.tar.gz

-cp

功能：从hdfs的一个路径拷贝hdfs的另一个路径

示例： hadoop fs -cp /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2

-mv

功能：在hdfs目录中移动文件

示例： hadoop fs -mv /aaa/jdk.tar.gz /

-get

功能：等同于copyToLocal，就是从hdfs下载文件到本地

示例：hadoop fs -get /aaa/jdk.tar.gz

-getmerge

功能：合并下载多个文件

示例：比如hdfs的目录 /aaa/下有多个文件:log.1, log.2,log.3,...

hadoop fs -getmerge /aaa/log.* ./log.sum

-put

功能：等同于copyFromLocal

示例：hadoop fs -put /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2

剩余11页未读，继续阅读

评论收藏

内容反馈

泡泡SOHO

2023-07-24

客户端首先将数据切分成固定大小的数据块，然后与第一个DataNode建立管道连接。
王佛伟

2023-07-24

客户端根据NameNode返回的副本数量和数据块写入情况，确定数据块的写入是否完成。
光与火花

2023-07-24

如果数据块的副本在读取过程中发生错误，客户端将重新选取一个可用的副本进行读取。
宏馨

2023-07-24

NameNode根据文件的存储位置信息，确定数据应该写入哪些DataNode。
禁忌的爱

2023-07-24

客户端向NameNode发送文件写入请求。

前往

页

weixin_38743737

粉丝: 376
资源: 2万+

11HDFS的读写流程&NameNode、DataNode工作机制——好程序

最新资源

11HDFS的读写流程&NameNode、DataNode工作机制——好程序

HDFS之NameNode分析

HDFS读写流程.xmind

DongTL#bigdata_interview#2-HDFS的读写流程1

hdfs user guide

HDFS读写流程&NameNode;工作机制流程图原件

namenode元数据管理机制

HDFS的概念-namenode和datanode.pdf

HDFS读写数据流程分析.ppt

ＨＤＦＳ 的读写数据流程：

HDFS读写机制.docx

Hadoop技术HDFS数据读写流程共7页.pdf.zip

Hadoop HDFS原理分析，技术详解

hadoop2.0 2个namenode 2个datanode 部署

【HDFS篇06】HDFS数据读写流程1

Hadoop学习总结之二：HDFS读写过程解析

HDFS构架设计和读写流程.docx

CDH4.3.0 HDFS 读写性能测试

HDFS文件读写操作

Hadoop学习总结之二：HDFS读写过程解析.doc

《HDFS——Hadoop分布式文件系统深度实践》PDF

hdfs源码分析整理

分布式存储系统——HDFS

大数据Hadoop中Hdfs的工作原理简洁版

实验项目 实战 HDFS 实验报告

大数据HDFS架构原理.pdf

hadoop源码分析-HDFS&MapReduce

《Hadoop大数据开发实战》教学教案—03HDFS分布式文件系统.pdf

揭秘大数据存储基石HDFS-理论篇.pptx_揭秘大数据存储基石HDFS_pptx_

最新资源

ＨＤＦＳ　的读写数据流程：

实验项目实战 HDFS 实验报告