ETL项目
在项目的所有阶段与团队紧密合作,以确保不会出现意外情况; 想象有大量数据输入,您和您的团队要负责将其迁移到生产数据库。 我们使用三个来源:来自Kaggle的一个CSV文件和两个互联网来源(Billboard前100名和Insider),我们将数据提取,转换并加载到不同的集合中,以供以后进一步分析。
提取:您的原始数据源(CSV和JSON)。
以csv格式读取的样本。 也可以从实时网页中阅读。
转换:数据清理和转换
广告牌循环
使用三个for循环提取标题,艺术家和年份,然后执行合并
内部循环
使用for循环从Internet插入一条线路以获取所需数据
负载:最终数据库,表/集合。
用熊猫来合并数据使用SQL / pgAdmin在执行联合时导致行被删除随后验证所有数据是否正确传输
分析
将所有重复的标题放在数据框中,以查看哪些歌曲在多个来源和年份中很流行
为了更深入地了解所做