项目描述
音乐流媒体创业公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及其应用程序中的歌曲上具有JSON元数据的目录中。
Sparkify希望数据工程师构建执行以下操作的ETL管道:
- Extracts their data from S3
- Stages them in Redshift
- Transforms data into a set of dimensional tables
- Continue finding insights in what songs their users are listening to.
项目数据集
这两个数据集位于S3中。
歌曲数据集
第一个数据集是“百万歌曲”数据集中的真实数据的子集。 每个文件均为JSON格式,并包含有关歌曲
评论0
最新资源