没有合适的资源?快使用搜索试试~ 我知道了~
mathorcup数学建模挑战赛获奖论文-第四届B题_10469c.doc
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 123 浏览量
2024-03-14
22:08:24
上传
评论
收藏 517KB DOC 举报
温馨提示
试读
20页
mathorcup数学建模挑战赛获奖论文,历届,单项文件,内容丰富,大学生数学,数学竞赛,参考资料
资源推荐
资源详情
资源评论
1
评委一评分,签名及备注
队号:
10469
评委三评分,签名及备注
评委二评分,签名及备注
选题:
B 题
评委四评分,签名及备注
题目:书籍推荐
摘要
本文主要研究的是书籍推荐问题,分析了影响读者对书籍评分的因素,通过
协同过滤算法和书籍相似度分析预测出指定的读者对未读过的书的评分,再基于
标签相似度和读书偏好模型给指定的读者分别推荐 3 本书。
针对问题一:本文通过相关性分析和对数据的分类统计,发现书籍的平均得
分,用户的评分习惯和用户的读书偏好(标签)这三个因素影响读者对书籍的评
分。
针对问题二:对于指定的读者,本文采用余弦相似度来计算所需预测的每一
本书籍与这个读者所有评过分的书籍的相似度并依此排序,选取前 10 本书籍作
为邻居集,根据该读者对邻居集中的书籍评分预测出他对这本书的评分。为了检
验预测的准确性,本文把评分记录的一小部分作为测试集,用 MAE 指标衡量预测
误差,结果显示预测效果良好。
针对问题三:本文采用余弦相似度计算每书籍标签的共生相似度,建立了一
个用户读书偏好模型,求出用户之间的相似度和用户偏好与书籍标签匹配度,综
合这两个指标得到书籍对用户的推荐指数,按照推荐指数给指定的用户推荐 3 本
未读过的书籍。
关键字:协同过滤 余弦相似度 标签相似度 读书偏好模型 推荐指数
1
1.模型假设
1、 用户的读书兴趣在整个评分过程中没有发生变化;
2、 用户都会尽可能读自己感兴趣的书;
3、 书籍的不同的标签代表不同的类别;
4、 用户会对感兴趣的书籍反复阅读。
2.主要符号说明
符号
符号说明
Q
书籍质量
P
书籍受欢迎程度
IP
用户评分偏好
BP
用户读书偏好
SI
社交圈评分影响
BS
书籍间的相似性
TCS
标签共生相似度
CS
用户相似度
CPS
用户与书籍的匹配度
RP
推荐指数
3.问题分析
3.1 第一问题的分析
书籍的评分客观上取决于书籍本身的质量,同时也受到用户评分偏好等的主
2
观影响。根据附件中所给数据,我们首先定义书籍质量
Q
、书籍受欢迎程度
P
、
用户评分偏好
IP
、用户读书偏好
BP
、以及社交圈评分影响
SI
等五个因素。然
后从以上因素出发,分别分析它们对用户评分的影响。
3.2 第二问题的分析
在不考虑主观因素影响的条件下,同一用户对书籍质量
Q
相同的书籍应具有
相近的评分,首先,我们采用基于书籍相似性的协同过滤推荐算法,求出与预测
书籍相似的邻居集;然后,通过邻居集对预测书籍给出预测评分。
3.3 第三问题的分析
给用户推荐的书籍,应尽可能的符合用户的读书偏好。首先,我们求出了用
户对书籍的关注度;其次,我们求出了用户的读书偏好;然后,求出符合用户偏
好的书对用户的推荐指数;最后,找出推荐指数最高的书推荐给该用户。
4.模型建立与求解
4.1 第一问题的模型建立与求解
4.1.1 分析书籍质量
Q
因素的影响
我们将书籍的平均得分定义为书籍质量
Q
,定义如下:
i
bookIDij
i
N
ijscore
Q
�
�
�
,
)3,,(
其中,
)3,,( ijscore
表示用户
j
对书籍
i
的评分,
i
N
表示参与对书籍
i
评分的
用户总数。
我们从附件 user_book_score.txt 中随机找出 100 名用户,并对每一位用户作
如下处理:
Step1:找出用户所有评分书籍及对应分数;
Step2:求出这些书籍的书籍质量
Q
;
Step3:求出用户评分与书籍质量的相关系数和置信水平。
用户7245481参与打分的书籍数量为517本,其中前10本的处理结果如表4-1所
3
示。
表4-1 用户7245481打分与书籍质量
书籍ID
用户的评分
参与评分的人数
书籍质量
Q
962729
4
959
4.116788
356405
4
463
4.164147
836383
4
588
4.061224
284550
4
998
3.942886
723581
4
1145
4.135371
827305
4
478
3.920502
572786
4
232
4.025862
473690
4
319
3.833856
964695
4
1063
4.235183
929118
4
497
4.046278
求 得 相 关 系 数
R
=0.57359 ; 置 信 水 平
P
=1.4614e-046 。 因 此 , 对 于 用 户
7245481,书籍评分与书籍质量有显著的相关性。
对于随机选取 100 名用户中的前 10 名用户,书籍评分与书籍质量的相关性
见表 4-2。
表 4-2 书籍评分与书籍质量相关性表
用户 ID
相关系数
置信水平
2963436
0.61484
1.06E-07
9187401
-0.28492
0.32347
6202949
0.59575
1.19E-13
5764419
0.35585
3.14E-06
4017913
0.4411
8.37E-05
1137054
0.409
0.018111
7672169
0.52047
8.62E-15
3736978
0.5322
2.99E-49
3878200
0.43015
0.12473
2614643
0.48621
6.82E-17
经分析,书籍质量是用户评分的影响因素。
4.1.2 分析书籍受欢迎程度
P
因素的影响
书籍的标签数量在一定程度上反映了书籍的受欢迎程度,因此我们定义书籍
受欢迎程度
P
:
�
�
j
i
jitagP ),(
其中,
),( jitag
表示书籍
i
的第
j
个标签。
剩余19页未读,继续阅读
资源评论
阿拉伯梳子
- 粉丝: 1573
- 资源: 5735
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功