没有合适的资源？快使用搜索试试~ 我知道了~

文库首页后端JavaHadoop和spark集群搭建详解

Hadoop和spark集群搭建详解

需积分: 50 25 下载量 128 浏览量 2017-12-04 14:34:27 上传评论 2 收藏 4.96MB PDF 举报

温馨提示

试读

29页

hadoop与spark集群搭建，了解hadoop分布式、伪分布式等方式集群搭建

资源推荐

资源详情

资源评论

分布式Hadoop与Spark集群搭建

Linux公社主站网址：www.linuxidc.com 旗下网站：www.linuxidc.net

包括：Ubuntu 专题 Fedora 专题 Android 专题 Oracle 专题 Hadoop 专题 RedHat 专题 SUSE 专题红旗 Linux 专题 CentOS 专题

1、设置 root 用户密码，以 root 用户登录，设置方式如下

sudo -s

gedit /etc/lightdm/lightdm.conf

[SeatDefaults]

greeter-session=unity-greeter

user-session=Ubuntu

greeter-show-manual-login=true

allow-guest=false

启用 root 帐号：（ Ubuntu 默认是禁止 root 账户的）

sudo passwd root

设置好密码，重启系统，选择 “login ”，输入 “root ”，再输入密码就可以了。

2、配置机器的 /etc/hosts 和 /etc/hostname 并安装 ssh 设置三台机器之间的无密码登录，在

“ /etc/hostname ”文件中把三台机器的 hostname 分别设置了 SparkMaster、 SparkWorker1 、

SparkWorker2 并在每台机器的 “ /etc/hosts ”配置如下 IP 和机器名称的对应关系：

127.0.0.1 localhost

192.168.32.131 SparkMaster

192.168.32.132 SparkWorker1

192.168.32.133 SparkWorker2

# The following lines are desirable for IPv6 capable hosts

::1 ip6-localhost ip6-loopback

fe00::0 ip6-localnet

ff00::0 ip6-mcastprefix

ff02::1 ip6-allnodes

ff02::2 ip6-allrouters

可通过 ipconfig 来查看 ip 地址。

可以 ping SparkWorker1 来查看 ip 是否配置成功

下面配置 ssh 无密码登陆：

1）apt-get install ssh

2）/etc/init.d/ssh start ，启动服务

3）ps -e |grep ssh，验证服务是否正常启动

4）设置免密登陆，生成私钥和公钥：

ssh-keygen -t rsa -P “”

再/root/.ssh 中生成两个文件： id_rsa 和 id_rsa.pub，id_rsa 为私钥， id_rsa.pub 为公钥，

我们将公钥追加到 authorized_keys 中，

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

将 SparkWorker1、SparkWorker2 的 id_rsa.pub 传给 SparkMaster，使用 scp 命令进行复制：

SparkWorker1 上，

scp ~/.ssh/id_rsa.pub root@SparkMaster:~/.ssh/id_rsa.pub.SparkWorker1

SparkWorker2 上，

scp ~/.ssh/id_rsa.pub root@SparkMaster:~/.ssh/id_rsa.pub.SparkWorker2

本文档由Linux公社 www.linuxidc.com 整理

然后将公钥添加到 SparkMaster 的 authorized_keys 中，

SparkMaster 上，

cd ~/.ssh

cat id_rsa.pub.SparkWorker1 >> authorized_keys

cat id_rsa.pub.SparkWorker2 >> authorized_keys

再将 SparkMaster 的 authorized_keys 复制到 SparkWorker1、SparkWorker2 的 .ssh目录下：

scp authorized_keys root@SparkWorker1:~/.ssh/authorized_keys

scp authorized_keys root@SparkWorker2:~/.ssh/authorized_keys

至此， ssh无密登陆已配置完毕。

ssh SparkMaster

ssh SparkWorker1

ssh SparkWorker2

在一台机器上可以登录其他系统无需密码。

3、配置 java 环境

SparkMaster 上， jdk-8u25-linux-i586.tar.gz

mkdir /urs/lib/java

cd /urs/lib/java

tar -zxvf jdk-8u25-linux-i586.tar.gz

gedit ~/.bashrc

在最后面添加，后面都用得上

#JAVA

export JAVA_HOME=/usr/lib/java/jdk1.8.0_25

export JRE_HOME=${JA VA_HOME}/jre

export CLASS_PA TH=.:${JA VA_HOME}/lib:${JRE_HOME}/lib

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.6.0

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"

export SCALA_HOME=/usr/lib/scala/scala-2.11.4

export SPARK_HOME=/usr/local/spark/spark-1.2.0-bin-hadoop2.4

export IDEA_HOME=/usr/local/idea/idea-IC-139.659.2

export

PATH=${IDEA_HOME}/bin:${SPARK_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_HO

ME}/bin:${JA VA_HOME}/bin:$PA TH

source ~/.bashrc，使配置生效。

java -version 可查看版本号，可验证是否成功。

在 SparkWorker1，SparkWorker2 上以同样方法配置，也可通过 scp 复制。

scp -r /usr/lib/java/jdk1.8.0_25 root@SparkWorker1:~/usr/lib/java/

scp -r /usr/lib/java/jdk1.8.0_25 root@SparkWorker2:~/usr/lib/java/

scp ~/.bashrc root@SparkWorker1:~/.bashrc

scp ~/.bashrc root@SparkWorker2:~/.bashrc

本文档由Linux公社 www.linuxidc.com 整理

复制完成后，在 SparkWorker1 ，SparkWorker2 上 source ~/.bashrc 使配置生效。

4、配置 hadoop 环境

SparkMaster 上， hadoop-2.6.0.tar.gz

mkdir /urs/lib/hadoop

cd /urs/lib/hadoop

tar -zxvf hadoop-2.6.0.tar.gz

cd hadoop-2.6.0

mkdir dfs

cd dfs

mkdir name

mkdir data

cd ..

mkdir tmp

接下来开始修改 hadoop 的配置文件，首先进入 Hadoop 2.6.0 配置文件区：

cd etc/hadoop

第一步修改配置文件 hadoop-env.sh，在其中加入 “JAVA_HOME” ，指定我们安装的

“ JAVA_HOME” ：

# The java implementation to use.

export JAVA_HOME=/usr/lib/java/jdk1.8.0_25

第二步修改配置文件 yarn-env.sh，在其中加入 “JAVA_HOME” ，

# some Java parameters

export JAVA_HOME=/usr/lib/java/jdk1.8.0_25

if [ "$JA VA_HOME" != "" ]; then

#echo "run java in $JA VA_HOME"

JAVA_HOME=$JA VA_HOME

第三步修改配置文件 mapred-env.sh，在其中加入 “JAVA_HOME” ，如下所示：

# export JAVA_HOME=/home/y/libexec/jdk1.6.0/

export JAVA_HOME=/usr/lib/java/jdk1.8.0_25

export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000

export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA

第四步修改配置文件 slaves，设置 Hadoop 集群中的从节点为 SparkWorker1 和

SparkWorker2，

SparkWorker1

SparkWorker2

第五步修改配置文件 core-site.xml ，如下所示：

本文档由Linux公社 www.linuxidc.com 整理

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!--

Licensed under the Apache License, Version 2.0 (the "License");

you may not use this file except in compliance with the License.

You may obtain a copy of the License at

http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software

distributed under the License is distributed on an "AS IS" BASIS,

WITHOUT W ARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

See the License for the specific language governing permissions and

limitations under the License. See accompanying LICENSE file.

-->

<name>fs.defaultFS</name>

<value>hdfs://SparkMaster:9000</value>

<description>The name of default file system</description>

</property>

<name>hadoop.tmp.dir</name>

<value>/home/local/hadoop/hadoop-2.6.0/tmp</value>

<description>A base for other temporary directories</description>

</property>

</configuration>

第六步修改配置文件 hdfs-site.xml ，如下所示：

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!--

Licensed under the Apache License, Version 2.0 (the "License");

you may not use this file except in compliance with the License.

You may obtain a copy of the License at

http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software

distributed under the License is distributed on an "AS IS" BASIS,

本文档由Linux公社 www.linuxidc.com 整理

剩余28页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

nicodeme

粉丝: 4
资源: 2

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

Hadoop和spark集群搭建详解

spark集群搭建超详细

Hadoop及Spark集群搭建文档

CentOS Linux中搭建Hadoop和Spark集群详解.docx

Spark集群构建:第一步：搭建 Hadoop,单机和伪分布式环境；

基于Linux平台下的Hadoop和Spark集群搭建研究.pdf

hadoop+spark分布式集群搭建及spark程序示例.doc

hadoop-Apache2.7.3+Spark2.0集群搭建

Spark2.3.0-Hadoop2.7.4集群部署

spark 分布式集群搭建

spark-集群与大数据处理

Hadoop集群的搭建

Hadoop集群搭建

基于Linux平台下的Hadoop和Spark集群搭建研究.docx

分布式hadoop与spark集群搭建[汇编].pdf

Spark集群及开发环境搭建（完整版）

从0开始搭建Spark集群

hadoop完全分布式集群搭建

Intellij IDEA连接Spark集群

Spark集群搭建与测试【完整版】

spark学习总结

spark 集群环境开发部署（hadoop，yarn，zookeeper，alluxio，idea开发环境）

hadoop-spark配置文档1

Hadoop搭建集群

搭建Hadoop集群

Hadoop集群搭建（全）

最新资源