1 Spark RDD 数据源
1.1 并行集合
// 创建 1-5 的列表
val data = Array(1,2,3,4,5)
// 从列表创建 RDD
val distData = sc.parallelize(data)
// 创建切片数为 2 的 RDD
val distData2 = sc.parallelize(data,2)
// 对 RDD 进行测试操作
// 对集合中的所有元素进行相加,返回结果为 15
distData.reduce((a,b) => a + b)
1.2 外部数据集
// 从 protocols 文件中创建 RDD
val distFile = s