春季学期大数据期末作业：推荐系统（源代码+文档说明+实验报告+可执行文件）资源-CSDN文库

共9个文件

txt：4个

pdb：1个

cpp：1个

版权申诉

课程设计

5星 · 超过95%的资源 8 浏览量 2023-12-06 01:08:57 上传评论收藏 21.12MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

2018年春季学期大数据期末作业：推荐系统.zip （9个子文件）

code

实验结果.txt 1.38MB

可执行文件

text.txt 1.38MB

BIGDATA.pdb 1MB

BIGDATA.ilk 817KB

test.txt 946KB

BIGDATA.exe 133KB

train.txt 60.13MB

源码.cpp 16KB

大数据实验报告.docx 174KB

《大数据计算及应用》

【推荐系统】实验报告

小组成员：潘巧巧 1613415、李佳骏 1613368

【实验相关统计信息】

（1）统计用户数量：19835。

（2）统计所有产品的得分平均值：49.545。

（3）统计每个用户看过的电影数目，在读取数据时将其存入数组 int

MovieNum[19835];中。

（4）统计计算 Pearson 系数需要的数据，存在 Pearson 矩阵中。

【实验原理】

核心算法：基于用户的协同过滤

如果已知用户 A 喜欢《蜘蛛侠》、《奇异博士》、《美国队长》、《绿巨人》等

漫威超级英雄系列电影，另外用户 B 也都喜欢这些电影，此外 B 还喜欢《钢铁

侠》，则 A 很有可能也喜欢《钢铁侠》，故我们可以预测用户 A 对于《钢铁侠》

的打分会较高。

在本次实验中，有两个关键步骤：

1、找到与目标用户 A 相似的用户群体

皮尔逊相关系数（Pearson Correlation Coefficient）是余弦相似度

在维度值缺失情况下的一种改进，故我们利用了皮尔逊相关系数来衡

量两个用户是否相似，由于矩阵较为系数，故仅需当用户 B 与我们

的目标用户之间的 Pearson 相似度大于 0 时，用户 B 对目标电影的

打分即成为我们对 A 打分进行预测时参考的重要指标。

用户 x 和用户 y 之间的 Pearson 相似度的计算公式为：

附：皮尔逊相关系数的分类：

0.8-1.0 极强相关

0.6-0.8 强相关

0.4-0.6 中等程度相关

0.2-0.4 弱相关

0.0-0.2 极弱相关

2、根据相似用户群体对目标电影的打分，对目标用户 A 给目标电影的

打分进行预测。

bxi 为最终结果的基线预测部分。bxi 中 bi 可以根据目标用户

的个人打分习惯对最终结果进行调整（用户习惯打高分/低分），bx

部分可以根据目标电影（产品）与所有产品的质量差距对最终结果进

行调整（该电影质量高于/低于所有电影的质量的平均值）。

rxi 为调整部分。根据与目标用户的相似用户群体对目标电影的

打分以及目标用户与各个相似用户的 Pearson 相似度对最终预测结

果进行调整。

具体实现过程：

① 前期准备：全局变量

1、建立一个 struct MovieScore，包括 int 类型的 IDOfMovie（电影编

号）和 int 类型的 ScoreOfMovie。

2、动态创建 MovieScore 类型的二维数组 Data，行数为用户数量

（19835），用户编号与行号一一对应；列数为该行对应的用户看过

的电影的数量，每行都不相同。

3、 int MovieNum[19835]，用来存放每个用户观看的电影数量。

4、创建一个类型、行数、列数都与 Data 相同的二维数组 PearData。

② Load()函数中使用 getline 逐行读取 train.txt 的数据。

1、若该行中存在“|”，说明是一个新的用户，读取他看过的电影数目，

存入 MovieNum。并动态创建 Data 中该用户对应行的大小。

2、若该行中不存在“|”，则是电影信息。将电影编号和电影分数转成 int

类型，按读取顺序存入 Data 中。

③ 调用 SortMovieID()函数，对每一用户看过的电影按电影编号从小到大的顺

序进行排序，便于后续利用二分查找进行查找工作。

④ 在 Pearson()中，利用数组 MovieNum 对每一行进行动态初始化。用 Data

的数据对 PearData 的数据进行相关计算填充。其中电影 ID 全部相同，

PearData[i][j].MovieScore 为 Data[i][j].MovieScore 与“该用户对他看过

的所有电影打分的平均值”之差。

⑤ 计算最终结果中的 r

部分。

遍历所有用户，找到同样看过目标电影的用户，如果该用户与目标用户的

Pearson 相似度大于 0，则进行上图公式中 r

部分的计算。若不存在“看过

目标电影且与目标用户相似”的用户，则 r

值返回 1000，即一个错误结果。

⑥ 计算最终结果中的 b

部分。

根据上图公式调用 double AvgUser(int UserID)、double AvgItem(int

ItemID)等函数进行计算。

⑦ 计算目标用户对目标电影的预测打分最终结果 End。

如果 rxi 返回值为 1000，则以目标用户对他看过的所有电影打分的平均值作

为最终结果。如果 rxi 的返回值有效，则以 bxi+rxi 作为最终结果。

⑧ 将预测结果写入 text.txt 中

1、读取 test.txt 中需要测试的数据

2、将测试数据与测试结果一起按格式写入指定记事本中

【关键部分代码解析】

（1）前期准备

struct MovieScore

{

int IDOfMovie;

double ScoreOfMovie;

};

MovieScore **Data = new MovieScore *[NumOfUser];

MovieScore **PearData = new MovieScore *[NumOfUser];

int *MovieNum = new int [NumOfUser];

（2）读取数据

//读取数据到Data矩阵

void load()

{

//打开train.txt

ifstream infile1;

infile1.open("train.txt");

评论收藏

内容反馈

版权申诉

Marryhon

2023-12-21

非常有用的资源，有一定的参考价值，受益匪浅，值得下载。

奋斗奋斗再奋斗的ajie

粉丝: 230
资源: 2166

春季学期大数据期末作业：推荐系统（源代码+文档说明+实验报告+可执行文件）

NLP作业：最大匹配中文分词+源代码+文档说明

Scala实现基于spark的大数据过滤引擎电影推荐系统+源代码+文档说明

python期末作业：量化回测项目源码+文档说明

NLP 课程大作业：口语语义理解任务+源代码+文档说明

NLP大作业-自然语言处理大作业：新闻情感极性分类+源代码+文档说明

JavaWeb课程设计/期末大作业-新闻展示系统+源代码+文档说明+实验报告

基于spark的外卖大数据平台分析系统+源代码+文档说明

用JavaEE+MYSQL实现的抽奖系统，可做课程设计/期末大作业+源代码+文档说明+实验报告

NLP期末大作业-句法分析器+源代码+文档说明+实验报告

NLP导论 作业：句法分析器+数据+源代码+文档说明

NLP期末大作业-中文熵信息计算+源代码+文档说明+实验报告

浙江工业大学，JavaWeb课程设计/期末大作业，软件测试管理系统+源代码+文档说明+实验报告+数据库sql

机器学习大作业：分类和拟合+源代码+文档说明

JavaWeb课程设计/期末大作业-教学课后辅导交流系统+源代码+文档说明+实验报告+sql表设计+运行截图

NLP期末大作业-词向量训练+源代码+文档说明+实验报告

机器学习大作业-样本不均匀问题+源代码+文档说明+实验报告+模型

JavaWeb课程设计/期末大作业：论坛系统的设计与实现+源代码+文档说明

Supermap期末大作业WebGIS开发+源代码+文档说明

JavaWeb课程设计/期末大作业-社区互助系统-类似于一个接取任务委托的网站+源代码+文档说明+源代码+文档说明+数据库sql

JavaWeb课程设计/期末大作业-个人博客系统+源代码+文档说明+sql+报告pdf

win10环境下vscode运行opencv(C++)(解压即用)-1号包

代码随想录算法PDF.rar

c++入门，核心，提高讲义笔记

仿照Visionmaster，用C++、Qt编写的视觉软件（注意：是发布版，非源码）

C++STL库常用库函数总结

c++小游戏 c++小游戏

mingw-w64-install.exe

C/C++中文帮助文档

我的世界简易版（C++编写，源代码+程序）

cmu 15445 2023spring project0

最新资源

NLP导论作业：句法分析器+数据+源代码+文档说明