ETL项目
第1组:埃里克·谢弗(Eric Shaffer)和尼克·霍尔(Nick Hoyer)
概括
在此回购中,我们演示了对2个与PGA巡回赛统计相关的单独CSV文件的ETL处理。 我们的ETL流程包括以下步骤:
提取-使用来自CSV,我们提取了PGA Tour Stats并将其加载到Pandas DataFrames中进行转换
转换-将数据加载到DataFrames中后,我们删除了不需要的列,并删除了所有具有空值的行。 然后,我们将列标题的格式设置为在2017年和2018年之间保持一致,并确保数据类型适合于列中的值。
加载-数据已加载到PostgreSQL创建的数据库中。 这是从Jupyter Notebook使用SQL数据库连接引擎完成的。
请按照以下说明复制我们的团队用于从数据源中提取,转换和加载数据到通用数据库的过程,该数据库具有适合分析的一致格式。
设定说明
导航到然后