spark编译部署和sparkbench编译
Spark 编译部署和 SparkBench 编译 Spark 编译部署和 SparkBench 编译是 Spark 单节点部署的超详细步骤,以及 SparkBench 编译的步骤。该文档可以用于 Spark 调优。 一、安装 JDK 在开始安装 Spark 之前,需要安装 JDK7.0 以上版本。可以通过以下命令查看是否安装了 JDK: `#java -version` 如果没有安装 JDK,在 Ubuntu 上可以直接通过以下命令安装: `#sudo apt-get install openjdk-7-jdk` 默认安装目录为 `/usr/lib/jvm/java-7-openjdk-ppc64el`。然后,需要设置环境变量: `#sudo vim /etc/profile` `export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-ppc64el` `export PATH=$JAVA_HOME/bin:$PATH` `#source /etc/profile` 二、安装 Maven 安装 Maven 需要两种方式: (1)在 Ubuntu 上,可以使用 apt-get install maven 来安装,但是版本可能太低,会导致一些错误。 (2)建议在 Maven 官网下载 Maven 源码进行安装。 A. 确保 JAVA_HOME 环境变量被设置,安装了 JDK。 B. 将下载的 Maven 源码包解压后,将 bin 增加到环境变量中,例如: `#sudo vim /etc/profile` `export MAVEN_HOME=/opt/apache-maven-3.3.9` `export PATH=$MAVEN_HOME/bin:$PATH` `#source /etc/profile` C. 输入命令:`mvn -v`,能显示 Maven 相关信息,就成功安装 Maven。 三、安装 Scala 安装 Scala 需要到 Scala 官网下载对应版本的 Scala,如 `scala-2.10.5.tgz`: `#tar -zxvf scala-2.10.5.tgz` 增加 Scala 路径到环境变量中,如: `#sudo vim /etc/profile` `export SCALA_HOME=/usr/local/scala-2.10.5` `export PATH=$SCALA_HOME/bin:$PATH` `#source /etc/profile` 四、编译 Spark 源码 下载 Spark 源码,如 `spark-1.5.0.tgz`: `#tar -zxvf spark-1.5.0.tar` `#cd spark-1.5.0` `#./build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -DskipTests clean package` `#./make-distribution.sh --name custom-spark --tgz -Phadoop-2.6 -Pyarn` 然后,在 `spark-1.5.0` 目录下可以看到 `spark-1.5.0-bin-custom-spark.tgz`,这是我们编译好的 Spark,相当于我们直接在官网下载的预编译版本。 五、设置 SSH 无密码登录 `#sudo apt-get install openssh-server` `#ssh localhost` `#exit` `#cd ~/.ssh` `#ssh-keygen -t rsa` `#cat id_rsa.pub >> authorized_keys` `#ssh localhost` 六、部署 Hadoop Hadoop 是 Spark 的依赖项,需要下载与 Spark 编译或预编译版本对应的 Hadoop 版本,下载网址为: `https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/` 选择合适的 Hadoop 版本下载。 配置 Hadoop 的环境变量: `#sudo vim /etc/profile` `export HADOOP_HOME=/usr/local/hadoop-2.6.0` `export PATH=$PATH:$HADOOP_HOME/bin` `#source /etc/profile` SparkBench 是一个性能测试框架,用于测试 Spark 的性能。它提供了一些标准的测试用例,可以帮助开发者快速评估 Spark 的性能。SparkBench 编译需要安装好 Maven 和 Scala,编译步骤与上述 Spark 编译步骤相似。
- 粉丝: 0
- 资源: 3
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于二阶自抗扰ADRC的轨迹跟踪控制,对车辆的不确定性和外界干扰具有一定抗干扰性,基于carsim和simulink仿真 跟踪轨迹为双移线,效果良好,有对应复现资料,是学习自抗扰技术快速入门很好的资料
- 基于python的网页自动化工具项目全套技术资料100%好用.zip
- MATLAB【逆变器二次调频模型】 微电网分布式电源逆变器DROOP控制二次调频模型,加入二次控制实现二次调频控制,及二次调压控制,程序可实现上图功能,工况有所改变 需要matlab2021A版
- 抢购软件:快速复制信息
- 单机无穷大系统发生各类(三相短路,单相接地,两相接地,两相相间短路)等短路故障,各类(单相断线,两相断线,三相断线)等断线故障,暂态稳定仿真分析
- 微信文章爬虫项目全套技术资料100%好用.zip
- 基于动态窗口算法的AGV仿真避障 可设置起点目标点,设置地图,设置移动障碍物起始点目标点,未知静态障碍物 动态窗口方法(DynamicWindowApproach) 是一种可以实现实时避障的局部规划算
- Power Quality Disturbance:基于MATLAB Simulink的各种电能质量扰动仿真模型,包括配电线路故障、感应电机启动、变压器励磁、单相 三相非线性负载等模型,可用于模拟各种
- 数据爬虫项目全套技术资料100%好用.zip
- 聊天系统项目全套技术资料100%好用.zip