没有合适的资源?快使用搜索试试~ 我知道了~
pyspark-example-project:为PySpark ETL工作和应用程序实施最佳实践的示例项目
共21个文件
py:6个
crc:4个
_success:2个
需积分: 27 5 下载量 55 浏览量
2021-05-02
19:21:06
上传
评论 2
收藏 23KB ZIP 举报
温馨提示
PySpark示例项目 本文档旨在与pyspark-template-project存储库中的代码并行阅读。 这些共同构成了我们认为是使用Apache Spark及其Python('PySpark')API编写ETL作业的“最佳实践”方法。 该项目解决以下主题: 如何以易于测试和调试的方式构造ETL代码; 如何将配置参数传递给PySpark作业; 如何处理对其他模块和软件包的依赖; 和, 构成对ETL工作的“有意义”测试。 ETL项目结构 基本项目结构如下: root/ | -- configs/ | | -- etl_config.json | -- dependencies/ | | -- logging.py | | -- spark.py | -- jobs/ | | -- etl_job.py | -- tests/ | | --
资源推荐
资源详情
资源评论
收起资源包目录
pyspark-example-project-master.zip (21个子文件)
pyspark-example-project-master
.gitignore 131B
README.md 15KB
jobs
etl_job.py 5KB
Pipfile.lock 6KB
build_dependencies.sh 1KB
tests
test_etl_job.py 2KB
test_data
employees_report
_SUCCESS 0B
._SUCCESS.crc 8B
part-00000-4a609ba3-0404-48bb-bb22-2fec3e2f1e68-c000.snappy.parquet 1011B
.part-00000-4a609ba3-0404-48bb-bb22-2fec3e2f1e68-c000.snappy.parquet.crc 16B
employees
part-00000-9abf32a3-db43-42e1-9639-363ef11c0d1c-c000.snappy.parquet 1KB
_SUCCESS 0B
._SUCCESS.crc 8B
.part-00000-9abf32a3-db43-42e1-9639-363ef11c0d1c-c000.snappy.parquet.crc 20B
__init__.py 0B
configs
etl_config.json 27B
Pipfile 187B
dependencies
spark.py 4KB
logging.py 1KB
__init__.py 0B
packages.zip 3KB
共 21 条
- 1
资源评论
胜负欲
- 粉丝: 23
- 资源: 4641
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 使用C++实现的常见算法
- travel-web-springboot【程序员VIP专用】.zip
- 基于Matlab, ConvergeCase中部分2D结果文件输出至EXCEL中 能力有限,代码和功能极其简陋.zip
- java桌面小程序,主要为游戏.zip学习资源
- Java桌面-坦克大战小游戏.zip程序资源
- java语言做的魔板小游戏.zip
- 初学JAVA制作的坦克大战小游戏,使用JAVA 的GUI模拟2,5D界面.zip
- 公开整理-2024年832个国家级贫困县摘帽情况分省分年统计.xlsx
- 纯js+Jquery实现2048游戏
- 叠罗汉游戏,安卓java实现,自定义Framlayout,属性动画.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功