windows10下spark2.3.0本地开发环境搭建-亲测

windows10下spark2.3.0本地开发环境搭建 win10上部署Hadoop非Cygwin、非虚拟机方式。安装目录为D:\setupedsoft。涉及相关组件版本: win10 家庭装,64位,x86处理器 JDK1.8.0_171 hadoop-2.7.6 Spark-2.3.0 Scala-2.11.8 Maven-3.5.3 ideaIC-2018.1.4.exe spark-2.3.0-bin-hadoop2.7 对应博文:https://blog.csdn.net/hambition/article/details/80769771 由于博文上传图片比较麻烦,图片又非常之多,没分的同学可直接看博文。 在Windows 10环境下搭建Apache Spark 2.3.0的本地开发环境,可以遵循以下步骤,无需使用Cygwin或虚拟机。本教程将基于指定的组件版本,包括Win10家庭版(64位),JDK 1.8.0_171,Hadoop 2.7.6,Spark 2.3.0,Scala 2.11.8,Maven 3.5.3以及IntelliJ IDEA 2018.1.4。所有软件将安装在D:\setupedsoft目录下。 **一、JDK 1.8.0_171的安装与配置** 1. 下载JDK的Windows 64位版本(jdk-8u171-windows-x64.exe)并安装到D:\setupedsoft\Java。 2. 设置系统环境变量: - **JAVA_HOME**: 值为D:\setupedsoft\Java。 - **Path**: 在已有的路径后添加`;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin`。 - **Classpath**: 添加`.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar`。 3. 验证安装:在命令行输入`java -version`,显示对应的Java版本信息。 **二、Hadoop 2.7.6的安装与配置** 1. 从Apache官网下载Hadoop 2.7.6并解压到D:\setupedsoft\hadoop-2.7.6。 2. 设置环境变量: - **HADOOP_HOME**: 值为D:\setupedsoft\hadoop-2.7.6。 - **Path**: 添加`;%HADOOP_HOME%\bin`。 3. 支持Windows运行Hadoop:下载一个专为Windows设计的Hadoop工具,解压后替换hadoop的bin和etc目录。这个工具对于Hadoop 2.5和2.7版本有效。 4. 创建Hadoop数据存储目录: - 在D:\datafile\hadoop-2.7.6下创建workplace目录,然后在workplace下创建temp、data和name三个子目录。 5. 修改Hadoop配置文件: - `core-site.xml`: 配置临时目录、NameNode目录和默认文件系统。 - `mapred-site.xml`: 设置MapReduce框架为YARN和JobTracker地址。 - `hdfs-site.xml`: 配置副本数量和DataNode目录。 **三、Spark 2.3.0的安装** 1. 下载Spark 2.3.0的预编译版本(spark-2.3.0-bin-hadoop2.7),解压到D:\setupedsoft。 2. 设置SPARK_HOME环境变量,值为Spark的安装目录,例如D:\setupedsoft\spark-2.3.0-bin-hadoop2.7。 3. 将SPARK_HOME\bin添加到Path环境变量中。 4. 为了本地开发,可能需要配置`pyspark`或`spark-submit`,使其指向正确的JAR文件和Hadoop配置。 **四、Scala和Maven的安装** 1. 安装Scala:虽然Spark提供了Scala的API,但通常不需要单独安装Scala,因为Spark已经包含了Scala运行时。 2. 安装Maven:用于构建和管理Spark项目,确保版本为3.5.3或以上。 **五、IDE集成** 1. 安装IntelliJ IDEA,推荐使用Ultimate版,因为它对Spark有更全面的支持。 2. 配置IDE中的Spark和Hadoop插件,如Scala Plugin和Spark Plugin。 3. 创建一个新的Spark Scala或Java项目,配置项目的SDK为JDK 1.8,并添加Spark和Hadoop的相关库。 **六、测试环境** 1. 启动Hadoop服务:运行hadoop的sbin目录下的start-dfs.sh和start-yarn.sh脚本。 2. 测试HDFS:通过hdfs dfs -ls命令检查HDFS是否工作正常。 3. 运行Spark示例:在IDE中编写一个简单的Spark程序,如WordCount,通过spark-submit提交到本地运行。 通过以上步骤,你将在Windows 10环境下成功搭建Spark 2.3.0的本地开发环境,可以开始进行Spark应用的开发和测试。在遇到问题时,可以参考相关博客或文档,例如链接中提到的博客文章,以便解决可能遇到的错误和异常。





剩余57页未读,继续阅读
















- 粉丝: 34
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源



评论1