Spark：用Scala和Java实现WordCount资源-CSDN文库

194 浏览量 2021-01-30 09:53:38 上传评论收藏 212KB PDF 举报

资源推荐

资源详情

资源评论

Spark：用：用Scala和和Java实现实现WordCount

为了在IDEA中编写scala，今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀，学会之后，用起来很顺手。关于如何

搭建scala和IDEA开发环境，请看文末的参考资料。

用Scala和Java实现WordCount，其中Java实现的JavaWordCount是spark自带的例子

（$SPARK_HOME/examples/src/main/java/org/apache/spark/examples/JavaWordCount.java）

1.环境

OS:Red Hat Enterprise Linux Server release 6.4 (Santiago)

Hadoop:Hadoop 2.4.1

JDK:1.7.0_60

Spark:1.1.0

Scala:2.11.2

集成开发环境：IntelliJ IDEA 13.1.3

注意：需要在客户端windows环境下安装IDEA、Scala、JDK，并且为IDEA下载scala插件。

2.Scala实现单词计数

package com.hq

3 /**

4 * User: hadoop

5 * Date: 2014/10/10 0010

6 * Time: 18:59

7 */

8 import org.apache.spark.SparkConf

9 import org.apache.spark.SparkContext

10 import org.apache.spark.SparkContext._

12 /**

13 * 统计字符出现次数

14 */

15 object WordCount {

16 def main(args: Array[String]) {

17 if (args.length < 1) {

18 System.err.println("Usage: <file>")

19 System.exit(1)

20 }

22 val conf = new SparkConf()

23 val sc = new SparkContext(conf)

24 val line = sc.textFile(args(0))

26 line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect().foreach(println)

28 sc.stop()

29 }

30 }

3.Java实现单词计数

1 package com.hq;

3 /**

4 * User: hadoop

5 * Date: 2014/10/10 0010

6 * Time: 19:26

7 */

9 import org.apache.spark.SparkConf;

10 import org.apache.spark.api.java.JavaPairRDD;

11 import org.apache.spark.api.java.JavaRDD;

12 import org.apache.spark.api.java.JavaSparkContext;

13 import org.apache.spark.api.java.function.FlatMapFunction;

14 import org.apache.spark.api.java.function.Function2;

15 import org.apache.spark.api.java.function.PairFunction;

16 import scala.Tuple2;

18 import java.util.Arrays;

19 import java.util.List;

20 import java.util.regex.Pattern;

22 public final class JavaWordCount {

23 private static final Pattern SPACE = Pattern.compile(" ");

25 public static void main(String[] args) throws Exception {

27 if (args.length < 1) {

28 System.err.println("Usage: JavaWordCount <file>");

29 System.exit(1);

30 }

32 SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount");

33 JavaSparkContext ctx = new JavaSparkContext(sparkConf);

34 JavaRDD<String> lines = ctx.textFile(args[0], 1);

36 JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

37 @Override

38 public Iterable<String> call(String s) {

39 return Arrays.asList(SPACE.split(s));

40 }

41 });

43 JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {

44 @Override

45 public Tuple2<String, Integer> call(String s) {

46 return new Tuple2<String, Integer>(s, 1);

47 }

48 });

50 JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {

51 @Override

52 public Integer call(Integer i1, Integer i2) {

53 return i1 + i2;

54 }

55 });

57 List<Tuple2<String, Integer>> output = counts.collect();

58 for (Tuple2<?, ?> tuple : output) {

59 System.out.println(tuple._1() + ": " + tuple._2());

60 }

61 ctx.stop();

62 }

63 }

4.IDEA打包和运行

4.1 IDEA的工程结构

在IDEA中建立Scala工程，并导入spark api编程jar包（spark-assembly-1.1.0-hadoop2.4.0.jar：$SPARK_HOME/lib/里面）

剩余6页未读，继续阅读

评论收藏

内容反馈

weixin_38685831

粉丝: 8
资源: 874

Spark：用Scala和Java实现WordCount

spark框架中wordcount的scala实现

spark运行wordcount例子

java实现的spark的wordcount单词技术程序

Java实现Spark词配对Wordcount计数代码实现

Spark大数据处理_原理算法与实例

Spark大数据处理技术 带标签 完整版

WordCount Java实现

Spark Streaming实现WordCount

Hadoop下Eclipse用Java编程实现WordCount

Java lambda表达式实现Flink WordCount过程解析

hadoop scala spark 例子项目，运行了单机wordcount

WordCount_Spark!_spark_wordcount_java_

Spark 最简单WordCount

Springboot 结合Apache Spark 2.4.4与Scala 2.12 集成示例

一个基于Spring Boot的Spark开发手脚架（Java+Scala），开箱即用！模拟了1个WordCount.zip

pom.xml(Idea中用于整合Scala实现Spark代码编写的配置文件)

data-algorithms-book, 数据算法书的MapReduce Spark Java和 Scala.zip

muuntaja:用 Scala、Java 和 XSLT 实现的 DITA 处理器

基于Spark+Scala+MongoDB的大数据实战，商品推荐系统设计与实现.zip

spark-weblog:Web日志分析在Scala和Apache Spark中的实现

大数据实验报告Windows环境下安装Spark及RDD编程和Spark编程实现wordcount.doc

java开发spark程序

第四章Spark&Scala的集成开发环境.docx

java+hadopp+scala+spark配置win10版

spark总结

SwordOffer：剑指offer题解（Java＆Scala实现）

SpringBoot-SecKill-Scala：Scala语言实现的秒杀系统增强版（含Java版），Scala v1

scala-spark-clustering:使用Spark框架实现聚类算法的Scala实现

最新资源

Spark大数据处理技术带标签完整版