没有合适的资源?快使用搜索试试~ 我知道了~
goodreads_etl_pipeline:用于构建数据湖,数据仓库和分析平台的端到端GoodReads数据管道
共45个文件
py:20个
png:11个
md:4个
需积分: 9 0 下载量 90 浏览量
2021-03-20
19:47:04
上传
评论
收藏 1.26MB ZIP 举报
温馨提示
GoodReads数据管道 建筑学 管道包括各种模块: ETL职位 Redshift仓库模块 分析模块 概述 使用Goodreads Python包装器从Goodreads API实时捕获数据(查看用法 )。从Goodreads API收集的数据存储在本地磁盘上,并及时移至AWS S3上的Landing Bucket。 ETL作业以火花形式编写,并按气流计划以每10分钟运行一次。 ETL流程 从API收集的数据将移至着陆区s3存储桶。 ETL作业具有s3模块,该模块将数据从着陆区复制到工作区。 数据移至工作区后,将触发火花作业,该火花作业将从工作区读取数据并进行转换。数据集已重新分区并移至“已处理区域”。 ETL作业的仓库模块从已处理区域中拾取数据并将其分段到Redshift临时表中。 使用Redshift暂存表并在Data Warehouse表上执行UPSERT操作以更新数据集。
资源推荐
资源详情
资源评论
收起资源包目录
goodreads_etl_pipeline-master.zip (45个子文件)
goodreads_etl_pipeline-master
Utility
bootstrap_script.txt 592B
src
logging.ini 439B
goodreads_driver.py 3KB
warehouse
goodreads_warehouse_driver.py 2KB
goodreads_upsert.py 2KB
__init__.py 0B
README.md 643B
goodreads_staging_queries.py 4KB
goodreads_warehouse_queries.py 3KB
__init__.py 0B
README.md 339B
s3_module.py 3KB
goodreads_udf.py 634B
goodreads.log 1B
goodreads_transform.py 6KB
LICENSE 1KB
README.md 7KB
SampleData
author.csv 202KB
book.csv 1.79MB
reviews.csv 593KB
user.csv 505KB
docs
images
DatasetCount.PNG 11KB
DAG.PNG 44KB
architecture.png 291KB
goodreads_dag.PNG 30KB
DAG_tree_view.PNG 36KB
Airflow_Redshift.PNG 21KB
sourcefiles.PNG 50KB
Airflow_EMR_ssh.PNG 28KB
WarehouseCount.PNG 33KB
goodreads.png 516KB
DAG_Gantt.PNG 19KB
Images.docx 148KB
Airflow_Connections.md 479B
goodreadsfaker
generate_fake_data.py 10KB
__init__.py 0B
airflow
plugins
operators
__init__.py 188B
goodreads_analytics.py 836B
data_quality.py 1KB
__init__.py 282B
helpers
__init__.py 93B
analytics_queries.py 7KB
dags
goodreads_etl_dag.py 5KB
__init__.py 0B
.gitignore 145B
共 45 条
- 1
资源评论
太远有一点点
- 粉丝: 34
- 资源: 4740
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- apk.tw_LineLite_v8a_v.2.17.1_sign.apk
- Elasticsearch实战:构建高效搜索系统的秘诀.zip
- HTML+CSS+JS网页设计:从入门到精通.zip
- 数据库课程设计:从理论到实践的全面指南.zip
- Python闭包:深入理解与应用场景解析.zip
- Win64OpenSSL-3-3-0.exe
- 课高分程设计-基于C++实现的民航飞行与地图简易管理系统-南京航空航天大学
- 航天器遥测数据故障检测系统python源码+文档说明+数据库(课程设计)
- 北京航空航天大学操作系统课设+ppt+实验报告
- 基于Vue+Echarts实现风力发电机中传感器的数据展示监控可视化系统+源代码+文档说明(高分课程设计)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功