没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
hadoop 中的单节点和集群设置
单节点设置
本文介绍了如何设置和配置单节点 Hadoop 安装,以便您可以使用 Hadoop
MapReduce 和 Hadoop 分布式文件系统(HDFS)快速执行简单的操作。
先决条件
支持平台
支持 GNU / Linux 作为开发和生产平台。Hadoop 在具有 2000 个节点的 GNU /
Linux 集群上得到了证明。
Windows 也是受支持的平台,但是以下步骤仅适用于 Linux。要在 Windows
上设置 Hadoop,请参见 wiki 页面。
所需软件
Linux 所需的软件包括:
1. 必须安装 Java™。HadoopJavaVersions 中描述了推荐的 Java 版本。
2. 如果要使用可选的启动和停止脚本,则必须安装 ssh 且 sshd 必须正在运行以
使用管理远程 Hadoop 守护程序的 Hadoop 脚本。另外,建议也安装 pdsh 以
便更好地进行 ssh 资源管理。
安装软件
如果您的群集没有必需的软件,则需要安装它。
例如在 Ubuntu Linux 上:
$ sudo apt-get install ssh
$ sudo apt-get install pdsh
下载
要获得 Hadoop 发行版,请从 Apache 下载镜像之一下载最新的稳定版本。
准备启动 Hadoop 集群
解压缩下载的 Hadoop 发行版。在发行版中,编辑文件 etc / hadoop / hadoop-env.sh
以定义一些参数,如下所示:
# set to the root of your Java installation
export JAVA_HOME=/usr/java/latest
尝试以下命令:
$ bin/hadoop
这将显示 hadoop 脚本的用法文档。
现在,您可以以三种支持的模式之一启动 Hadoop 集群:
本地(独立)模式
伪分布式模式
全分布式模式
独立运行
默认情况下,Hadoop 被配置为在非分布式模式下作为单个 Java 进程运行。这对
于调试很有用。
下面的示例复制解压缩的 conf 目录以用作输入,然后查找并显示给定正则表达
式的每个匹配项。输出被写入给定的输出目录。
$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.5.0-SNAPSHOT.jar grep input output
'dfs[a-z.]+'
$ cat output/*
伪分布式操作
Hadoop 也可以以伪分布式模式在单节点上运行,其中每个 Hadoop 守护程序都
在单独的 Java 进程中运行。
组态
使用以下内容:
etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
设置无密码 SSH
现在检查您是否可以在没有密码的情况下 SSH 到本地主机:
$ ssh localhost
如果没有密码就无法 SSH 到本地主机,请执行以下命令:
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
执行
以下说明是在本地运行 MapReduce 作业。
1. 格式化文件系统:
$ bin/hdfs namenode -format
2. 启动 NameNode 守护程序和 DataNode 守护程序:
$ sbin/start-dfs.sh
hadoop 守护程序日志输出将写入$ HADOOP_LOG_DIR 目录(默认为
$ HADOOP_HOME / logs)。
3. 浏览 Web 界面以查找 NameNode;默认情况下,它在以下位置可用:
NameNode- http:// localhost:9870 /
4. 设置执行 MapReduce 作业所需的 HDFS 目录:
$ bin/hdfs dfs -mkdir -p /user/<username>
5. 将输入文件复制到分布式文件系统中:
$ bin/hdfs dfs -mkdir input
$ bin/hdfs dfs -put etc/hadoop/*.xml input
6. 运行提供的一些示例:
$ bin / hadoop jar share / hadoop / mapreduce / hadoop-mapreduce-examples-3.2.1.jar grep 输入输出'dfs [az。] +'
7. 检查输出文件:将输出文件从分布式文件系统复制到本地文件系统并检查它
们:
$ bin/hdfs dfs -get output output
$ cat output/*
或
查看分布式文件系统上的输出文件:
$ bin/hdfs dfs -cat output/*
8. 完成后,使用以下命令停止守护进程:
$ sbin/stop-dfs.sh
在单个节点上的 YARN
您可以通过设置一些参数并另外运行 ResourceManager 守护程序和 NodeManager
守护程序,以伪分布式模式在 YARN 上运行 MapReduce 作业。
以下指令假定上述指令的 1.〜4. 步骤已经执行。
1. 如下配置参数:
etc / hadoop / mapred-site.xml:
<configuration>
<property>
<name>mapreduce.framework.name</name>
剩余17页未读,继续阅读
资源评论
icysmile131
- 粉丝: 4627
- 资源: 685
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功