spark_学习demo资源-CSDN文库

共293个文件

class：213个

java：70个

prefs：3个

需积分: 11 174 浏览量 2018-07-23 16:10:43 上传评论收藏 135.52MB ZIP 举报

Spark是Apache软件基金会下的一个开源大数据处理框架，以其高效、灵活和易用的特性在大数据领域备受推崇。Spark的学习涉及到多个方面，包括核心概念、编程模型、数据存储、分布式计算等。在这个"spark_学习demo"中，我们将重点探讨Spark与Java的结合应用。 1. **Spark核心概念** - **RDD（弹性分布式数据集）**：Spark的核心数据抽象，是不可变、分区的记录集合，可以在集群中进行并行操作。 - **DAG（有向无环图）**：Spark的任务调度基于DAG，它表示了任务间的依赖关系。 - **Job、Stage、Task**：Job是用户提交的完整操作，被分解为多个Stage（基于Shuffle划分），每个Stage又包含多个并行执行的Task。 2. **Spark编程模型** - **Spark API**：提供了Scala、Java、Python和R等多种语言接口，本例关注的是Java API。 - **SparkContext**：Spark程序的入口点，用于创建Spark应用程序，并与集群进行交互。 - **JavaPairRDD**：Java版本的键值对数据集，支持丰富的转换和行动操作。 3. **Spark数据存储** - **HDFS（Hadoop Distributed File System）**：通常作为Spark的数据源，Spark可以直接读写HDFS上的数据。 - **数据持久化**：Spark支持将中间结果缓存到内存或磁盘，提高重用效率。 - **数据分区策略**：通过Partitioner调整数据分布，优化计算性能。 4. **Spark作业执行** - **Local模式**：在单机上运行，适合开发和测试。 - **YARN、Mesos或Standalone**：Spark可以运行在这些集群管理系统之上，实现资源调度。 5. **Java编程实践** - **创建SparkConf和SparkContext**：初始化Spark环境，设置配置参数。 - **加载数据**：使用JavaSparkContext的textFile方法读取文本数据。 - **转换操作**：如map、filter、reduceByKey等，改变数据结构或处理数据。 - **行动操作**：如count、collect、saveAsTextFile等，触发实际计算并返回结果或写入数据。 6. **性能调优** - **并行度设置**：调整partitions数量以平衡计算负载。 - **内存管理**：合理配置executor内存，避免频繁溢出。 - **宽依赖和窄依赖**：优化DAG结构，减少shuffle操作以提升性能。 7. **Spark SQL与DataFrame/Dataset** - Spark SQL提供了SQL接口，方便数据查询和处理。 - DataFrame/Dataset提供了更高级的API，支持类型安全和编译时检查。在这个"spark-study-java"的学习案例中，你将有机会实践上述知识点，通过编写Java代码，理解Spark如何处理数据，如何进行分布式计算，以及如何在Java环境中实现高效的数据分析。通过实际操作，加深对Spark核心特性的理解，从而更好地应用于大数据项目。

资源推荐

资源详情

资源评论

收起资源包目录

spark_学习demo （293个子文件）

TransformationOperation.class 7KB

NewsRealtimeStatSpark.class 7KB

DailyTop3Keyword.class 6KB

ActionOperation.class 6KB

NewsOfflineStatSpark.class 5KB

JSONDataSource.class 5KB

JDBCDataSource.class 5KB

AppLogSpark.class 5KB

AccessLogSortKey.class 4KB

AccessProducer.class 4KB

RDD2DataFrameProgrammatically.class 4KB

KafkaDirectWordCount.class 3KB

Top3HotProduct$3.class 3KB

TransformBlacklist.class 3KB

KafkaReceiverWordCount.class 3KB

WindowHotWord$4.class 3KB

OfflineDataGenerator.class 3KB

RDD2DataFrameReflection.class 3KB

WindowHotWord.class 3KB

AggregateByKey.class 3KB

FlumePollWordCount.class 3KB

SecondarySortKey.class 3KB

FlumePushWordCount.class 3KB

PersistWordCount.class 3KB

UpdateStateByKeyWordCount.class 3KB

MapPartitions.class 3KB

WordCount.class 3KB

CustomReceiverWordCount.class 3KB

DataGenerator.class 3KB

JavaCustomReceiver.class 3KB

Repartition.class 3KB

Coalesce.class 3KB

JDBCDataSource$5.class 3KB

PersistWordCount$4$1.class 3KB

SortWordCount.class 3KB

Top3.class 3KB

TransformBlacklist$2.class 2KB

Top3HotProduct.class 2KB

Distinct.class 2KB

Cartesian.class 2KB

HiveDataSource.class 2KB

DailyTop3Keyword$6.class 2KB

ParquetLoadData.class 2KB

HDFSWordCount.class 2KB

GroupTop3$2.class 2KB

DailyTop3Keyword$3.class 2KB

Intersection.class 2KB

MapPartitionsWithIndex.class 2KB

UpdateStateByKeyWordCount$3.class 2KB

Union.class 2KB

DailyTop3Keyword$1.class 2KB

PlusClosureVariable.class 2KB

PersistWordCount$3.class 2KB

MapPartitionsWithIndex$1.class 2KB

DataFrameOperation.class 2KB

WordCountLocal.class 2KB

Repartition$1.class 2KB

Repartition$2.class 2KB

AppLogSpark$3.class 2KB

Sample.class 2KB

Coalesce$1.class 2KB

Coalesce$2.class 2KB

BroadcastVariable.class 2KB

WordCountCluster.class 2KB

DailyTop3Keyword$7.class 2KB

ParallelizeCollection.class 2KB

TakeSampled.class 2KB

GroupTop3$3.class 2KB

NewsRealtimeStatSpark$4.class 2KB

SecondarySort.class 2KB

AccumulatorVariable.class 2KB

LocalFile.class 2KB

TransformationOperation$7.class 2KB

TransformationOperation$12.class 2KB

GroupTop3.class 2KB

TransformBlacklist$2$1.class 2KB

HDFSFile.class 2KB

NewsRealtimeStatSpark$9.class 2KB

MapPartitions$1.class 2KB

AppLogSpark$1.class 2KB

AppLogSpark$2.class 2KB

TransformationOperation$11.class 2KB

LineCount.class 2KB

Top3HotProduct$3$1.class 2KB

DailyTop3Keyword$5.class 2KB

Persist.class 2KB

NewsRealtimeStatSpark$2.class 2KB

ThriftJDBCServerTest.class 2KB

ManuallySpecifyOptions.class 2KB

NewsRealtimeStatSpark$8.class 2KB

NewsRealtimeStatSpark$12.class 2KB

RowNumberWindowFunction.class 2KB

FlumePollWordCount$1.class 2KB

FlumePushWordCount$1.class 2KB

TransformBlacklist$2$2.class 2KB

DailyTop3Keyword$4.class 2KB

NewsRealtimeStatSpark$1.class 2KB

WordCount$2.class 2KB

WordCount$1.class 2KB

共 293 条

package cn.spark.study.core; import java.util.Arrays; import java.util.Iterator; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function; import org.apache.spark.api.java.function.Function2; import org.apache.spark.api.java.function.VoidFunction; import scala.Tuple2; /** * transformation操作实战 * @author Administrator * */ @SuppressWarnings(value = {"unused", "unchecked"}) public class TransformationOperation { public static void main(String[] args) { // map(); // filter(); // flatMap(); // groupByKey(); // reduceByKey(); // sortByKey(); // join(); cogroup(); } /** * map算子案例：将集合中每一个元素都乘以2 */ private static void map() { // 创建SparkConf SparkConf conf = new SparkConf() .setAppName("map") .setMaster("local"); // 创建JavaSparkContext JavaSparkContext sc = new JavaSparkContext(conf); // 构造集合 List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5); // 并行化集合，创建初始RDD JavaRDD<Integer> numberRDD = sc.parallelize(numbers); // 使用map算子，将集合中的每个元素都乘以2 // map算子，是对任何类型的RDD，都可以调用的 // 在java中，map算子接收的参数是Function对象 // 创建的Function对象，一定会让你设置第二个泛型参数，这个泛型类型，就是返回的新元素的类型 // 同时call()方法的返回类型，也必须与第二个泛型类型同步 // 在call()方法内部，就可以对原始RDD中的每一个元素进行各种处理和计算，并返回一个新的元素 // 所有新的元素就会组成一个新的RDD JavaRDD<Integer> multipleNumberRDD = numberRDD.map( new Function<Integer, Integer>() { private static final long serialVersionUID = 1L; // 传入call()方法的，就是1,2,3,4,5 // 返回的就是2,4,6,8,10 @Override public Integer call(Integer v1) throws Exception { return v1 * 2; } }); // 打印新的RDD multipleNumberRDD.foreach(new VoidFunction<Integer>() { private static final long serialVersionUID = 1L; @Override public void call(Integer t) throws Exception { System.out.println(t); } }); // 关闭JavaSparkContext sc.close(); } /** * filter算子案例：过滤集合中的偶数 */ private static void filter() { // 创建SparkConf SparkConf conf = new SparkConf() .setAppName("filter") .setMaster("local"); // 创建JavaSparkContext JavaSparkContext sc = new JavaSparkContext(conf); // 模拟集合 List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10); // 并行化集合，创建初始RDD JavaRDD<Integer> numberRDD = sc.parallelize(numbers); // 对初始RDD执行filter算子，过滤出其中的偶数 // filter算子，传入的也是Function，其他的使用注意点，实际上和map是一样的 // 但是，唯一的不同，就是call()方法的返回类型是Boolean // 每一个初始RDD中的元素，都会传入call()方法，此时你可以执行各种自定义的计算逻辑 // 来判断这个元素是否是你想要的 // 如果你想在新的RDD中保留这个元素，那么就返回true；否则，不想保留这个元素，返回false JavaRDD<Integer> evenNumberRDD = numberRDD.filter( new Function<Integer, Boolean>() { private static final long serialVersionUID = 1L; // 在这里，1到10，都会传入进来 // 但是根据我们的逻辑，只有2,4,6,8,10这几个偶数，会返回true // 所以，只有偶数会保留下来，放在新的RDD中 @Override public Boolean call(Integer v1) throws Exception { return v1 % 2 == 0; } }); // 打印新的RDD evenNumberRDD.foreach(new VoidFunction<Integer>() { private static final long serialVersionUID = 1L; @Override public void call(Integer t) throws Exception { System.out.println(t); } }); // 关闭JavaSparkContext sc.close(); } /** * flatMap案例：将文本行拆分为多个单词 */ private static void flatMap() { // 创建SparkConf SparkConf conf = new SparkConf() .setAppName("flatMap") .setMaster("local"); // 创建JavaSparkContext JavaSparkContext sc = new JavaSparkContext(conf); // 构造集合 List<String> lineList = Arrays.asList("hello you", "hello me", "hello world"); // 并行化集合，创建RDD JavaRDD<String> lines = sc.parallelize(lineList); // 对RDD执行flatMap算子，将每一行文本，拆分为多个单词 // flatMap算子，在java中，接收的参数是FlatMapFunction // 我们需要自己定义FlatMapFunction的第二个泛型类型，即，代表了返回的新元素的类型 // call()方法，返回的类型，不是U，而是Iterable<U>，这里的U也与第二个泛型类型相同 // flatMap其实就是，接收原始RDD中的每个元素，并进行各种逻辑的计算和处理，返回可以返回多个元素 // 多个元素，即封装在Iterable集合中，可以使用ArrayList等集合 // 新的RDD中，即封装了所有的新元素；也就是说，新的RDD的大小一定是 >= 原始RDD的大小 JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() { private static final long serialVersionUID = 1L; // 在这里会，比如，传入第一行，hello you // 返回的是一个Iterable<String>(hello, you) @Override public Iterable<String> call(String t) throws Exception { return Arrays.asList(t.split(" ")); } }); // 打印新的RDD words.foreach(new VoidFunction<String>() { private static final long serialVersionUID = 1L; @Override public void call(String t) throws Exception { System.out.println(t); } }); // 关闭JavaSparkContext sc.close(); } /** * groupByKey案例：按照班级对成绩进行分组 */ private static void groupByKey() { // 创建SparkConf SparkConf conf = new SparkConf() .setAppName("groupByKey") .setMaster("local"); // 创建JavaSparkContext JavaSparkContext sc = new JavaSparkContext(conf); // 模拟集合 List<Tuple2<String, Integer>> scoreList = Arrays.asList( new Tuple2<String, Integer>("class1", 80), new Tuple2<String, Integer>("class2", 75), new Tuple2<String, Integer>("class1", 90), new Tuple2<String, Integer>("class2", 65)); // 并行化集合，创建JavaPairRDD JavaPairRDD<String, Integer> scores = sc.parallelizePairs(scoreList); // 针对scores RDD，执行groupByKey算子，对每个班级的成绩进行分组 // groupByKey算子，返回的还是JavaPairRDD // 但是，JavaPairRDD的第一个泛型类型不变，第二个泛型类型变成Iterable这种集合类型 // 也就是说，按照了key进行分组，那么每个key可能都会有多个value，此时多个value聚合成了Iterable // 那么接下来，我们是不是就可以通过groupedScores这种JavaPairRDD，很方便地处理某个分组内的数据 JavaPairRDD<String, Iterable<Integer>> groupedScores = scores.groupByKey(); // 打印groupedScores RDD groupedScores.foreach(new VoidFunction<Tuple2<String,Iterable<Integer>>>() { private static final long serialVersionUID = 1L; @Override public void call(Tuple2<String, Iterable<Integer>> t) throws Exception { System.out.println("class: " + t._1); Iterator<Integer> ite = t._2.iterator();

评论收藏

内容反馈