没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
34页
内容概要: 分布式文件系统与 HDFS HDFS 体系结构与基本概念★★★ HDFS 的 shell 操作★★★ 搭建 eclipse 开发环境★★ java 接口及常用 api★★★ hadoop 的 RPC 机制★ hadoop 读写数据的过程分析★★
资源推荐
资源详情
资源评论
分布式存储系统—HDFS
HDFS 作为分布式文件管理系统,Hadoop 的基础。
以下是本章学习要点:
➢
分布式文件系统与 HDFS
➢
HDFS 体系结构与基本概念★★★
➢
HDFS 的 shell 操作★★★
➢
搭建 eclipse 开发环境★★
➢
java 接口及常用 api★★★
➢
hadoop 的 RPC 机制★
➢
hadoop 读写数据的过程分析★★
分布式文件系统与 HDFS
数据量越来越大,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统
管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就
是分布式文件管理系统 。
学术一点的定义就是:分布式文件系统是一种允许文件通过网络在多台主机上分享的文件
系统,可让多机器上的多用户分享文件和存储空间。
分布式文件管理系统很多,hdfsHDFS 只是其中一种。适用于一次写入、多次查询的情
况,不支持并发写情况,小文件不合适。
小提示:如何在刚开始学习的时候,形象化的地理解什么是HDFS 哪呢?我们可以把HDFS
看做是wWindows 的文件系统。在wWindows 的文件系统维护着有一套很多层次的文件夹目录,
这么复杂的目录层次是为了在文件夹中分门别类的地存放文件。我们经常做的操作是创建文件
夹、创建文件、移动文件、复制文件、删除文件、编辑文件、查找文件等。HDFS 与 wWindows中
的文件系统类似,看到的和操作的也类似。读者可以把 HDFS 理解为分 wWindows 文件系统。
HDFS 的 shell 操作
既然 HDFS 是存取数据的分布式文件系统,那么对 HDFS 的操作,就是文件系统的基本
操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对
HDFS 的操作命令类似于 lLinux 的 shell 对文件的操作,如 ls、mkdir、rm 等。
我们执行以下操作的时候,一定要确定 hadoop 是正常运行的,使用 jps 命令确保看到
各个 hadoop 进程。
我们执行命令 hadoop fs,如图 4-1 所示。
图 4-1
图中显示了很多命令选项信息。以上截图不全,我在表格 4-1 中完整的地列出了支持的
命令选项。
选项名称
使用格式
含义
-ls
-ls <路径>
查看指定路径的当前目录结构
-lsr
-lsr <路径>
递归查看指定路径的目录结构
-du
-du <路径>
统计目录下个文件大小
-dus
-dus <路径>
汇总统计目录下文件(夹)大小
-count
-count [-q] <路径>
统计文件(夹)数量
-mv
-mv <源路径> <目的路径>
移动
-cp
-cp <源路径> <目的路径>
复制
-rm
-rm [-skipTrash] <路径>
删除文件/空白文件夹
-rmr
-rmr [-skipTrash] <路径>
递归删除
-put
-put <多个 linux 上的文件> <hdfs 路径>
上传文件
-copyFromLocal
-copyFromLocal <多个 linux 上的文件>
<hdfs 路径>
从本地复制
-moveFromLocal
-moveFromLocal <多个 linux 上的文件>
<hdfs 路径>
从本地移动
-getmerge
-getmerge <源路径> <linux 路径>
合并到本地
-cat
-cat <hdfs 路径>
查看文件内容
-text
-text <hdfs 路径>
查看文件内容
-copyToLocal
-copyToLocal [-ignoreCrc] [-crc] [hdfs 源路
径] [linux 目的路径]
从本地复制
-moveToLocal
-moveToLocal [-crc] <hdfs 源路径> <linux
目的路径>
从本地移动
-mkdir
-mkdir <hdfs 路径>
创建空白文件夹
-setrep
-setrep [-R] [-w] <副本数> <路径>
修改副本数量
-touchz
-touchz <文件路径>
创建空白文件
-stat
-stat [format] <路径>
显示文件统计信息
-tail
-tail [-f] <文件>
查看文件尾部信息
-chmod
-chmod [-R] <权限模式> [路径]
修改权限
-chown
-chown [-R] [属主][:[属组]] 路径
修改属主
-chgrp
-chgrp [-R] 属组名称 路径
修改属组
-help
-help [命令选项]
帮助
注意:以上表格中对于路径,包括 hdfs 中的路径和 linux 中的路径。对于容易产生歧义
的地方,会特别指出“linux 路径”或者“hdfs 路径”。如果没有明确指出,意味着是 hdfs
路径。
下面我们讲述每个命令选项的用法。
-ls 显示当前目录结构
该命令选项表示查看指定路径的当前目录结构,后面跟 hdfs 路径,如果图 4-1 所示。
图 4-1
上图中的路径是 hdfs 根目录,显示的内容格式与 linux 的命令 ls –l 显示的内容格式
非常相似,现在下面解析每一行的内容格式:
首字母表示文件夹(如果是“d”)还是文件(如果是“-”);
后面的 9 位字符表示权限;
后面的数字或者“-”表示副本数。如果是文件,使用数字表示副本数;文件夹没有副
本;
后面的“root”表示属主;
后面的“supergroup”表示属组;
后面的“0”、“6176”、“37645”表示文件大小,单位是字节;
后面的时间表示修改时间,格式是年月日时分;
最后一项表示文件路径。
可见根目录下面有四个文件夹、两个文件。
如果该命令选项后面没有路径,那么就会访问/user/<当前用户>目录。我们使用 root
用户登录,因此会访问 hdfs 的/user/root 目录,如图 4-2.所示。
图 4-2
如果没有这个目录/user/root,会提示文件不存在的错误。
-lsr 递归显示目录结构
该命令选项表示递归显示当前路径的目录结构,后面跟 hdfs 路径。如图 4-3 所示。
图 4-3
显示/user 目录下有个 root 目录,root 目录下有文件 abc。
-du 统计目录下各文件大小
该命令选项显示指定路径下的文件大小,单位是字节,如图 4-4.所示。
图 4-4
-dus 汇总统计目录下文件大小
该命令选项显示指定路径的文件大小,单位是字节,如图 4-5 所示。.
图 4-5
请读者比较图 4-4 与图 4-5 的区别,体会两个命令选项的不同含义。
-count 统计文件(夹)数量
该命令选项显示指定路径下的文件夹数量、文件数量、文件总大小信息,如图 4-6
所示.。
图 4-6
在图 4-6 中有两条命令,下面的命令是为了佐证上面命令的正确性的。
-mv 移动
该命令选项表示移动 hdfs 的文件到指定的 hdfs 目录中。后面跟两个路径,第一个
表示源文件,第二个表示目的目录。,如图 4-7 所示。.
图 4-7
在图 4-7 中有三条命令,是为了体现移动前后的变化情况。
-cp 复制
该命令选项表示复制 hdfs 指定的文件到指定的 hdfs 目录中。后面跟两个路径,第
剩余33页未读,继续阅读
资源评论
小小哭包
- 粉丝: 1900
- 资源: 3864
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功