电影推荐的最终报告(线性模型)
介绍
该项目的目的是开发一个模型,以给定特定的用户电影组合,电影发行的年份和电影的类型来预测电影的收视率。
该报告将分为4个部分,即简介,分析,结果和结论部分。
分析
本节将涉及一些关键步骤,即预处理,数据可视化和模型开发。
本部分旨在提出一个成功的模型,以预测给定用户电影组合的收视率,且均方根误差小于0.85。
前处理
给定代码的结果将我们的数据分为2组,即验证组和edx组。
在此分析中,我们将把edx集分为训练集和测试集,而验证集将仅用于评估我们的最终算法。 我们从运行代码开始,以导入我们的库并从movielens数据库生成我们的数据集。 我们使用semi_join函数来确保edx和验证集中的用户电影组合相同。
当我们查看train_x数据集时,我们观察到两件事,
每部电影的发行年份以从1970年1月1日开始的天数形式表示。
每部电影的流派