Spark、Hadoop⼤数据平台搭建 下载安装包 Spark 分布式计算 ,安装包⼤⼩:220M ⽀持Hadoop 2.7以后的版本 Scala Scala环境,Spark的开发语⾔ ,安装包⼤⼩:20M Hadoop 分布式存储(计算) ,安装包⼤⼩:209M Java Java环境 ,安装包⼤⼩:187M ZooKeeper 注册中⼼ ,安装包⼤⼩:36M 配置 ⾸先需要配置环境变量 环境变量 打开并编辑 ~/.bashrc ⽂件,在末尾添加以下内容: # java JAVA_HOME=/opt/jdk1.8.0_192 export PATH=$PATH:$JAVA_HOME/bin # hadoop HADOOP_HOME=/opt/hadoop-2.7.7 export PATH=$PATH:$HADOOP_HOME/bin # zookeeper ZOOKEEPER_HOME=/opt/zookeeper-3.4.13 export PATH=$PATH:$ZOOKEEPER_HOME/bin # scala SCALA_HOME=/opt/scala-2.12.8 export PATH=$PATH:$SCALA_HOME/bin # spark SPARK_HOME=/opt/spark-2.3.2-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin Host 这⾥需要设置Host,⼀个是Hadoop的Name-Node、Data-Node,⼀个spark的Master、Worker。 # hadoop 192.168.1.151 name-node 192.168.1.155 data-node-sa 192.168.1.156 data-node-sb 192.168.1.157 data-node-sc spark conf/slaves worker-sa worker-sb worker-sc 待补充 。。。 hadoop etc/hadoop/slaves data-node-sa data-node-sb data-node-sc Python3安装 安装pyspark cd /opt/spark-2.3.2-bin-hadoop2.7/python && python36 setup.py install 安装numpy pip3 install numpy -i https://pypi.mirrors.ustc.edu.cn/simple/ --trusted-host pypi.mirrors.ustc.edu.cn 启动&停⽌ hadoop sbin/start-all.sh sbin/stop-all.sh spark sbin/start-all.sh sbin/stop-all.sh 执⾏任务 提交任务 spark-submit --master spark://name-node:7077 --executor-memory 512m --total-executor-cores 2 client.py ⼏个管理页 Spark Hadoop 测试数据 《Spark与Hadoop大数据平台搭建指南》 在大数据处理领域,Spark和Hadoop是两个重要的组件,它们分别负责计算和存储。本指南将详细介绍如何在Linux环境下搭建Spark和Hadoop的大数据平台,以及如何配置环境变量,安装所需依赖,启动和停止服务,以及执行Spark任务。 1. **Spark和Hadoop的安装**: Spark是一款快速、通用且可扩展的开源大数据处理框架,主要设计用于大规模数据处理。在这里,我们需要下载Spark的分布式计算包,确保其支持Hadoop 2.7及以上版本。Hadoop则是一个分布式存储和计算框架,它的核心包括HDFS(Hadoop Distributed File System)和MapReduce。 2. **环境准备**: 在搭建平台前,需要安装Java环境,因为Spark和Hadoop都依赖于Java运行。同时,Scala是Spark的主要开发语言,也需要预先安装Scala环境。ZooKeeper作为协调服务,用于集群中的节点注册和通信。 3. **配置环境变量**: 在用户的.bashrc文件中,添加各个软件的路径到系统环境变量,例如设置JAVA_HOME、HADOOP_HOME、ZOOKEEPER_HOME、SCALA_HOME和SPARK_HOME,并更新PATH。 4. **设置Hosts**: 配置Hosts文件是为了识别各个节点的角色。例如,设置Hadoop的Name-Node和Data-Node,以及Spark的Master和Worker节点。这有助于节点间的通信和任务调度。 5. **Hadoop的Slaves配置**: 在Hadoop的etc/hadoop目录下的slaves文件中,列出所有Data-Node的主机名或IP,以便Hadoop知道哪些节点是数据节点。 6. **Python3安装**: 对于使用PySpark,需要安装Python3,并在Spark的python目录下通过`python36 setup.py install`命令安装pyspark。同时,安装numpy库以支持数据处理,可以使用国内镜像源以提高安装速度。 7. **启动和停止服务**: 使用Hadoop和Spark提供的sbin脚本启动和停止服务。例如,`sbin/start-all.sh`和`sbin/stop-all.sh`分别用于启动和停止所有服务。 8. **提交Spark任务**: 使用`spark-submit`命令提交Spark作业,指定Master地址(例如spark://name-node:7077)、executor内存大小(如--executor-memory 512m)和总执行器核心数(如--total-executor-cores 2),然后提供客户端的Python脚本(如client.py)。 9. **监控与测试**: 安装完成后,可以访问Spark和Hadoop的管理页面进行监控和测试,以确保平台正常运行。 通过以上步骤,我们可以成功地在本地搭建起一个Spark和Hadoop的大数据处理平台,为后续的大规模数据分析和处理工作提供了基础环境。在实际操作过程中,可能会遇到网络问题、依赖冲突等,需要根据日志信息进行排查和解决。此外,对于生产环境,还需要考虑高可用性、安全性等方面的配置。
- 粉丝: 186
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java项目:婚品商城采购系统(java+Servlet+Jsp+Jdbc+jQuery+Ajax+MVC+mysql)
- DiscuzX3.5新秀网络验证管理系统-易语言模块-ver1.0
- DiscuzX3.5新秀网络验证管理系统-易语言模块-ver1.0
- Java项目:婚品商城采购系统(java+Servlet+Jsp+Jdbc+jQuery+Ajax+MVC+mysql)
- Java项目:婚品商城采购系统(java+Servlet+Jsp+Jdbc+jQuery+Ajax+MVC+mysql)
- 基于遗传算法原理系统代码.zip
- 模拟退火算法调度问题代码.zip
- algorithm-随机规划模型
- AnOs-keil5安装教程
- CUG人工智能作业-蒙特卡洛