在Spark中支持分层数据格式,HDF5 / NetCDF4和Rich Parallel I / O接口
通过Lustre文件系统优化在HPC上优化I / O性能
输入和输出
输入的是HDF5文件
输出是一个RDD对象
下载H5Spark
git clone
只需在Cori / Edison上测试H5Spark
Python版本:
导出PYTHONPATH = $ PYTHONPATH:path_to_h5spark / src / main / python / h5spark
sbatch spark-python.sh
Scala版本:
导出LD_LIBRARY_PATH = $ LD_LIBRARY_PATH:path_to_h5spark / lib
模块负载
sbt汇编
sbatch spark-scala.sh
在Pyspark脚本中使用
将h5spark路径
评论0
最新资源