ETL_project
在本项目中,我们使用了csv格式的两个数据集:一个涉及视频游戏销售,另一个涉及电子竞技玩家的收入。 该项目的总体目的是对这些数据集进行转换,以便以后可以相互评估它们,从而深入了解所代表游戏的竞争性和休闲性。
转换过程首先涉及从每个数据集中仅提取那些被认为相关且可取的列。 对于“销售”数据,包括“等级”,“名称”,“ NA_Sales”,“ EU_Sales”,“ JP_Sales”和“ Global_Sales”列;对于电子竞技数据,包括“ CurrentHandle”,“ Game”, “总计USDPrize”和“类型”列。 然后从电子竞技的“ CurrentHandle”列和销售的“名称”列中删除重复项。 然后,将该“名称”列重命名为“游戏”,以便两个表之间保持一致,并且将两个“游戏”列均设置为它们各自数据框的索引。
转换完成后,将建立到指定的postgr