阿帕奇火花
下载Spark
本地版本:
日期:2021年3月
Spark版本3.1.1; 程序包类型“为Hadoop 2.7预先构建”; openjdk 15.0.2; python 3.9.2和pyspark;
PySpark外壳
在Linux / OS X上启动PySpark
$HOME/spark-3.1.1-bin-hadoop2.7/bin/pyspark
或使用pip安装并启动pyspark
pip install pyspark
pyspark
理论
参考:《火花在行动》第二版,让·乔治·佩林,曼宁出版社。
大局
认证Apache Spark 3可以在Java 11上运行[参考:图书1.5.1]
支持Scala,R,Python,Java的API。
它是什么以及它用作什么
spark可以想象成一个分析操作系统。
自动管理其下的分布式节点。
为rdbms提供标准化