纯新手配置Intellij,可完全上手。并总结可能遇到的问题提示及解决方法,部分内容概述如下: 问题如何解决:NoSuchMethodError: scala.collection.JavaConverters,版本不匹配错误;java.lang.NoClassDefFoundError:org/apache/hadoop/fs/FSDataInputStream,无Hadoop包错误 Project创建及配置: 1. 可通过Import spark-2.4.2-bin-hadoop2.7中的example源码入手开发 2. Project Structure:分别设置Library(spark包)、SDKs(JDK1.8)、Global Libraries(Scala) ### IntelliJ IDEA 开发Spark配置详解 #### 一、前言 在进行大数据处理与分析时,Apache Spark无疑是一个强大的工具。然而,对于初次接触Spark及其集成开发环境(IDE)的开发者来说,正确地配置开发环境可能会遇到一些挑战。本文旨在为初学者提供一个详尽的指南,帮助其在IntelliJ IDEA上顺利搭建Spark开发环境。 #### 二、常见问题与解决方案 1. **NoSuchMethodError: scala.collection.JavaConverters** - **原因**:此错误通常是因为Scala版本不一致导致的。例如,在使用Spark 2.4.2时,它默认使用Scala 2.12编译,如果项目中使用了不同版本的Scala,则可能导致此类错误。 - **解决方案**:确保所使用的Spark版本与Scala版本相匹配。例如,如果你使用的是Spark 2.4.2,则需要确保Scala版本为2.12。 2. **java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream** - **原因**:这通常意味着项目中缺少Hadoop相关的类库或依赖。 - **解决方案**:确保在项目中正确配置了Hadoop的依赖。如果你使用的是Spark预编译版本,例如`spark-2.4.2-bin-hadoop2.7`,则不需要额外安装Hadoop,因为该版本已经包含了必要的Hadoop类库。如果使用的是不含Hadoop的Spark版本,如`spark-2.4.3-bin-without-hadoop-scala-2.12`,则需要手动添加Hadoop依赖。 #### 三、项目创建及配置 1. **安装IntelliJ IDEA并配置Scala插件** - 下载并安装最新版本的IntelliJ IDEA。 - 解密IntelliJ IDEA (参考链接: [https://blog.csdn.net/Justszh/article/details/81484802](https://blog.csdn.net/Justszh/article/details/81484802))。 - 安装Scala插件。根据IntelliJ的版本,下载相应的`scala-IntelliJ-bin`压缩包,并将其放入IntelliJ软件的Plugin目录下。参考链接: [https://plugins.jetbrains.com/plugin/1347-scala/versions](https://plugins.jetbrains.com/plugin/1347-scala/versions)。 - 重启IntelliJ IDEA以使更改生效。 2. **下载Spark** - 访问Apache Spark官方网站 [http://spark.apache.org/downloads.html](http://spark.apache.org/downloads.html),下载对应版本的Spark压缩包。 - 由于IntelliJ IDEA 2018.3及之后的版本默认使用Scala 2.12,因此建议下载`spark-2.4.2-bin-hadoop2.7`或更高版本,以避免Scala版本不一致的问题。 3. **创建项目** - 在IntelliJ IDEA中创建一个新的Scala项目。 - **Project Structure**设置: - **Library**:将下载的Spark压缩包中的`jars`目录下的所有`.jar`文件添加到项目的库中。注意,从Spark 2.0开始,不再提供单一的大`spark-assembly-*.jar`文件,而是分成了多个小的`.jar`文件。 - **SDKs**:设置Java SDK为JDK 1.8。 - **Global Libraries**:确保Scala库已经被正确添加。 4. **导入示例代码** - 为了快速上手,可以从`spark-2.4.2-bin-hadoop2.7`中导入example源码作为起点。 #### 四、单机模式与多机模式 1. **单机模式** - 如果只需要在单机模式下运行Spark程序,可以使用`spark-2.4.2-bin-hadoop2.7`,因为它已经包含了Hadoop类库,无需额外安装和配置Hadoop。 - 运行时,可以指定`local[*]`作为Master URL。 2. **多机模式** - 对于分布式集群部署,需要在每台机器上安装和配置Hadoop,并确保所有节点之间的网络连通性良好。 - 使用不含Hadoop的Spark版本时,如`spark-2.4.3-bin-without-hadoop-scala-2.12`,需要在所有节点上安装Hadoop。 #### 五、结语 通过上述步骤,你应该能够在IntelliJ IDEA上成功配置并开始使用Spark进行开发。尽管在配置过程中可能会遇到一些常见的错误,但只要遵循正确的步骤,这些问题都可以轻松解决。希望这篇文章能够帮助你在Spark的开发旅程中更加顺畅!
- 粉丝: 0
- 资源: 3
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助