#Sparkify项目描述
Sparkify是Udacity创建的一个虚构的音乐流媒体平台,这个数据集包含了两个月的Sparkify用户行为日志。日志包含关于用户的一些基本信息以及关于双向操作的信息。一个用户可以包含多个更高。在数据中,确定用户是否流失,通过重定向账号的行为可以被区别出来。
Sparkify数据集
在这个项目中,我们得到了这个平台的日志数据。迷你,中型和大型数据集(仅在AWS公开)都可以使用。我使用了中等规模的数据,数据集medium_sparkify_event_data.json ,一个包含18列, 543705行数据集,每一行代表一个用户的行为日志,此数据集共有448用户。
文件描述
Sprakify-zh.ipynb利用火花分析来自音乐应用Sparkify的用户行为数据,演示了使用pyspark探索数据和构建模型的过程,用星火操纵大的真实数据集来抽取相关性特征来预测