hadoop和火花的探索
目标
该存储库中包含的代码和示例旨在使您熟悉Hadoop / Spark环境以及Java语言的Spark应用程序的开发。
优先事项
Spark是一个“相对”庞大而复杂的主题(就API和部署配置而言,甚至只是配置!),对于要在此处讨论的API,我不得不做出艰难的选择。
最初选择的主题是对使用Spark联接数据集的各种可能性和技术的研究,在大容量连接上总是导致缓慢和执行错误(OOM,磁盘上没有空间,..)。 迄今为止,该代码尚未反映出此初始选择。
选择Spark版本
我选择使用最新的Spark 2.x版本。 我将自己与要用于测试的发行版保持一致,即支持2.2版的 。
数据集
生产
在API方面,我选择使用和比较3种可用的API,即数据集,数据框和“ RDD经典”。
与最初的课题相比,实现阶段使我面临更多平淡无奇的障碍。 举个例子:
要求SparkSession的
评论0
最新资源