因为事物总是向着熵增的方向发展,所以一切符合熵增的,都非常容易和舒适,比如懒散。
RDD行动算子
reduce算子
作用:聚合RDD中的所有元素。
需求:创建一个键值对RDD,并进行聚合。
(1) 创建第一个RDD
(2) 使用reduce算子聚合元素
collect算子
作用:以数组的形式返回数据集中的所有数据。
需求:创建一个数值型RDD然后打印。
(1) 创建RDD
(2) 打印结果
count算子
作用:返回RDD中的元素个数
需求:创建一个数值型RDD然后统计其个数
(1) 创建RDD
scala> val rdd = sc.makeRDD(Array(("a",1),("a",2),("b",3),("b",4)))
rdd: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[8] at
makeRDD at <console>:24
scala> rdd.reduce((x,y) => (x._1+y._1,x._2+y._2))
res4: (String, Int) = (aabb,10)
scala> val rdd = sc.parallelize(0 to 9)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[10] at parallelize at
<console>:24
scala> rdd.collect
res5: Array[Int] = Array(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)
评论0