没有合适的资源?快使用搜索试试~ 我知道了~
pyspark-example-project:为PySpark ETL工作和应用程序实施最佳实践的示例项目
共21个文件
py:6个
crc:4个
_success:2个
需积分: 27 5 下载量 113 浏览量
2021-05-02
19:21:06
上传
评论 2
收藏 23KB ZIP 举报
温馨提示
PySpark示例项目 本文档旨在与pyspark-template-project存储库中的代码并行阅读。 这些共同构成了我们认为是使用Apache Spark及其Python('PySpark')API编写ETL作业的“最佳实践”方法。 该项目解决以下主题: 如何以易于测试和调试的方式构造ETL代码; 如何将配置参数传递给PySpark作业; 如何处理对其他模块和软件包的依赖; 和, 构成对ETL工作的“有意义”测试。 ETL项目结构 基本项目结构如下: root/ | -- configs/ | | -- etl_config.json | -- dependencies/ | | -- logging.py | | -- spark.py | -- jobs/ | | -- etl_job.py | -- tests/ | | --
资源推荐
资源详情
资源评论
收起资源包目录
pyspark-example-project-master.zip (21个子文件)
pyspark-example-project-master
.gitignore 131B
README.md 15KB
jobs
etl_job.py 5KB
Pipfile.lock 6KB
build_dependencies.sh 1KB
tests
test_etl_job.py 2KB
test_data
employees_report
_SUCCESS 0B
._SUCCESS.crc 8B
part-00000-4a609ba3-0404-48bb-bb22-2fec3e2f1e68-c000.snappy.parquet 1011B
.part-00000-4a609ba3-0404-48bb-bb22-2fec3e2f1e68-c000.snappy.parquet.crc 16B
employees
part-00000-9abf32a3-db43-42e1-9639-363ef11c0d1c-c000.snappy.parquet 1KB
_SUCCESS 0B
._SUCCESS.crc 8B
.part-00000-9abf32a3-db43-42e1-9639-363ef11c0d1c-c000.snappy.parquet.crc 20B
__init__.py 0B
configs
etl_config.json 27B
Pipfile 187B
dependencies
spark.py 4KB
logging.py 1KB
__init__.py 0B
packages.zip 3KB
共 21 条
- 1
资源评论
胜负欲
- 粉丝: 21
- 资源: 4642
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功