大数据应用人才培养系列教材
大数据实践
刘 鹏 张 燕 总主编
袁晓东 主编 黄必栋 副主编
第五章 内存大数据计算框架 Spark
5.1 Spark简介
5.2 Spark部署
5.3 Spark配置
5.4 Spark RDD
习题
5.5 Spark Shell
大数据应用人才培养系列教材
5.1 Spark简介
第五章 内存大数据计算框架Spark
美国加州大学伯克利分校的AMP实验室在2010年发布的一个快速、
通用的开源大数据处理引擎
与Hadoop平台类似, 提供更高效、更快的数据处理,兼容Hadoop生
态
当前主流的数据分析、数据流式处理、机器学习平台之一
Spark
特性
多种类数据处理支持
丰富、灵活的编程接口
高效、高性能的批处理
灵活、易用的编程模型
批处理、流失处理、迭代计算(机器学
习、图计算)、交互式查询
编程语言:Java、Scala、Python
、R、SQL
交互式数据处理: Spark Shell、
PySpark、Spark SQL CLI
高效利用内存处理数据;计算中间结果不
需要存储到文件系统;作业调度的优化
第五章 内存大数据计算框架Spark
DAG编程模型丰富了map,reduce操作
接口,增加了filter、flatMap、union
等操作接口
5.1 Spark简介
多数据源支持
HDFS、Hive、HBase、Parquet等
第五章 内存大数据计算框架Spark
5.1 Spark简介
Spark生态系统BDAS