没有合适的资源?快使用搜索试试~ 我知道了~
mathorcup数学建模挑战赛获奖论文-第四届B题_10352c.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 54 浏览量
2024-03-14
22:06:39
上传
评论
收藏 731KB PDF 举报
温馨提示
试读
18页
mathorcup数学建模挑战赛获奖论文,历届,单项文件,内容丰富,大学生数学,数学竞赛,参考资料
资源推荐
资源详情
资源评论
1
MathorCup 全球大学生数学建模挑战赛
承 诺 书
我们仔细阅读了 MathorCup 全球大学生数学建模挑战赛的规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮
件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问
题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他
公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正
文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反
竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从 A/B/C 中选择一项填写): B
我们同意组委会可以公开发布论文到校苑数模网: 是 (是/否)
我们的参赛报名队号: 10352
参赛队员 :1. 邢云飞
2. 张丽娜
3. 宋迎召
指导教师或指导教师组负责人 : 廖川荣
日期: 2014 年 5 月 28 日
2
评委一评分,签名及
备注
队号:
10352
评委三评分,签名及
备注
评委二评分,签名及
备注
选题:
B
评委四评分,签名及
备注
题目:推荐书籍
摘要
随着信息技术和互联网技术的发展,信息逐渐由匮乏时代转入过载时代。图
书市场也是这样的步伐,对于阅读者如何从海量图书中选到自己喜欢并且高质量
的图书是件困难的事;同时对于作者来说,如何使自己的书脱颖而出也是件非常
困难的事情。本文根据所提供数据,深度挖掘数据之间的联系性,建立出行之有
效的模型来预测评分和推荐书籍。
针对问题一,主要是进行大数据的信息挖掘,本文通过关联规则应用于高维,
海量的数据探寻中,通过降低维度,查询资料发现书籍标签热度服从长尾分布,
建立数据间的映射表,通过缺失值处理方法补充成完整矩阵的方法,找出与用户
评分有关的强关联影响想因素。通过本文综合运用大量的大数据挖掘技术,最终
确定了影响用户对书籍的评分影响因素有:1.用户的阅读兴趣 2.书籍的流行度
针对问题二,在解决了问题一的基础上,并且认为文中给出的图书 ID 是按
照杜威十进制数来编码,通过抽样算法抽取出 60000 个用户读书类型的样本数
据,以及对应评价书籍的热度作为输入端,选取了 6000 个已评分的书籍记录作
为神经网络的校验。此时我们将评分与影响因素的关系看成一个黑盒子,使用 BP
神经网络对输入输出数据进行训练,最好用训练好的网络进行评分预测。完美的
发挥了 BP 神经网络的非线性系统的优越性,较为准确的预测出用户的评分。(具
体评分见文章)
针对于问题三,运用基于聚类的协同过滤方法,以用户的兴趣爱好为聚类中
心,将有相同爱好的读者聚集在一起。之后,再找出与推荐对象的最近邻居,根
据最近邻居来协同帮助发现用户的隐性信息,从而选择出 TOP-3,将这三本书推
荐给用户阅读。(具体推荐书籍见文章)
关键词:大数据挖掘 长尾分布 BP 神经网络 聚类 协同过滤分析
更多数模资讯和学习资料,请关注b站/公众号:数学建模BOOM
精品课程:https://k.weidian.com/z=camKMb
3
一、 问题重述
1.1 问题的背景
随着网络的普及,图书出版业也迎来了爆棚时代,读者面临的信息量越来越大,
可供选择的书籍也越来越多,此时如何选到一本心满意足的书籍已经变得不那容
易。应于时代的要求,个性化推荐应运而生,它从用户的历史数据和用户的社交
行为数据中发现用户的 “兴趣”,采取推荐的方式将信息呈现在用户面前,使
用户尽量快的从海量的信息中找到自己感兴趣的书籍。然而,目前国内外对于图
书评价的研究,无论在理论上还是实际中都相对落后。目前,对于图书评价和图
书的推荐仍然处于定性的分析层面上。所以,有必要通过用户的资料以及历史行
为对书籍评分进行预测并且实现较为准确的书籍推荐系统。
1.2 问题的提出
根据题目给出的数据以及要求,本体可以归纳为以下三个问题:
1. 挖掘题目中的数据内在联系。并且观察评分与数据间的关系。从中分析出
对于用户评分的影响因素‘
2. 根据问题一的影响因素,建立适当的预测模型对表中用户未评过分的书籍
进行评分。
3. 利用用户的社交数据,使用协同过滤的方法给用户推荐符合兴趣爱好的书
籍。
二、 问题的分析
2.1 问题一的分析
题干中明确的说明从“数据”中挖掘信息解决以下的问题。对于问题一,就必
须从海量的数据中去发现联系。所以问题的关键突破点在于如何从几十万的数据
中找到影响评分的因素。所以,问题一的主要任务便是进行大数据挖掘,从中找
出影响用户评分的因素。
2.2 问题二的分析
问题二的基础便是问题一中所分析出来的影响因素,问题二要解决的就是如何
利用这些影响评分因素的大量数据,通过数据之间简历一种怎样的关系去对用户
评分行为进行预测。所以问题二要选定合适的处理模型来进行评分预测。
2.3 问题三的分析
问题三,在问题一的分析基础上要更进一步的根据用户的兴趣,在大量的书籍
中选出用户最感兴趣的书籍进行推荐是难点。将大量的书籍聚类并借助歪理来过
滤那些用户不喜欢的书籍是这一问的重点。
4
三、 模型的假设
1) 书籍的 ID 是按照杜威十进分类法来进行分类的
2) 用户必须在看过书籍后才可以对书籍评分
3) 用户关注的好友大多数是因为兴趣相近
4) 网站的标签数仅代表被归类的次数
四、 符号说明
i
a
书籍的流行度
b
书籍的类型
( 1,2,3...9)
i
ci
用户所读每种类型书的本数
MSE
相对误差
五、 模型建立与求解
5.1 问题一的求解
5.1.1 数据的校验和前期筛选
Step 1:确认所有评分用户在看过书籍之后再评分,对于有些用户未看过该书籍
就评分的作为错误数据,为避免对后期分析影响故将其删除
Step 2:确认所有书籍都有标签,没有标签的书籍当作刚发布,没有任何历史记
录我们不予以考虑
Step 3:将书籍对应的标签数据作缺失值处理,补全维数形成一个完整的矩阵
Step 4:将重复的书籍标签或者阅读历史取其中一个
5.1.2 因素一的处理和归纳
图 5-1 大数据挖掘流程
剩余17页未读,继续阅读
资源评论
阿拉伯梳子
- 粉丝: 1573
- 资源: 5735
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功