没有合适的资源?快使用搜索试试~ 我知道了~
基于Spark的实时电影推荐系统研究.pdf
需积分: 38 16 下载量 76 浏览量
2021-03-28
10:23:42
上传
评论 4
收藏 3.59MB PDF 举报
温馨提示
试读
67页
基于Spark的实时电影推荐系统研究
资源详情
资源评论
资源推荐
分
类
号
密
级
UDC
编
号
硕
士
学
位
论
文
题
名
和
副
题
名
基
于
S
p
a r
k
的
实
时
电
影
推
荐
系
统
研
究
作
者
姓
名
安
指
导
教
师
姓
名
及职
称 李
军
(
副
教
授
)
申
请学
位
级
别
硕
士
专
业
名
称
计
算机
科
学 与
技
术
论
文
提
交
日 期
论
文
答
辩
日
期
学
位
授
予
单
位
和
日
期
成
都
理
工
大
学
(
年
月
)
答
辩
委
员
会
主
席
f
HM
评
阅
人
2 0 18
年
0 6
月
分类
号
学 校代
码
: 1 0 6 1 6
U
D C
密 级
学 号
:
成
都
理
工
大学
硕
士
学位论文
基
于
S
p
a r k
的实 时 电影推
荐
系
统研究
指
导
教
师姓 名 及 职称
李
军
(
副 教授
)
申 请
学 位 级
别
硕
士
专
业
名 称 计
算 机
科学与 技
术
论 文
提 交
日
期
论
文 答辩
日 期
学 位
授
予
单位
和 日 期 成
都
理
工
大
学 (
年
月 )
答辩 委
员
会
主
席
气
%W
评
阅 人
2 0
1 8
年
06
月
独
创
性 声 明
本
人
声 明
所
呈
交 的 学位 论
文
是
本 人在导 师
指
导下
进
行 的
研
究
工
作
及
取得 的
研
究成 果
。
据 我所知 , 除
了
文 中 特
别
加
以 标
注 和
致
谢
的
地
方 外
, 论
文
中
不
包
含
其
他人 己
经
发
表或 撰 写
过
的
研
宄
成
果
,
也
不
包
含为
获
得
成
都
理
工
大学
或
其
他
教
育
机构
的 学 位或
证
书
而
使
用 过 的 材料
。
与 我
一
同
工
作 的 人 员 对 本研 究所做 的 任
何 贡献 均
己
在
论
文 中 作
了 明
确 的说 明 并
表
示
谢意
。
学
位
论
文作
者
签名
:
w
g
年
j
月
5
曰
学
位
论 文版权使
用 授
权书
本
学
位
论 文
作
者
完
全
了
解
成
都
理
工
大
学
有
关
保
留
、
使
用
学
位
论
文 的
规
定
,
有
权
保 留 并 向
国
家有 关部 门
或
机构
送
交
论
文 的 复
印
件
和
磁
盘
,
允许
论
文
被
查
阅 和
借 阅
1
本
人
授
权
成
都
理
工
大
学
可
以
将
学位
论
文
的
全
部 或部 分 内
容
编
入
有关 数
据
库
进
行
检
索
,
可 以采 用 影 印
、
缩
印 或 扫
描
等复 制手 段
保
存
、
汇 编 学 位论文
。
(
保
密 的 学 位 论 文在 解 密
后
适
用
本授权书 )
学 位
论
文 作 者
签
名
:
学
位
论
文 作
者导
师
签
名
:
7
/
^
8
年
/
月
/
^
■
曰
摘 要
I
基于 Spark 的实时电影推荐系统研究
摘 要
随着步入互联网时代,Web2.0 和物联网技术飞速发展,全球每年产生越来
越多的数据,如何从这些海量的数据中去帮助人们发现他们感兴趣的信息,同时
为商家带来更大的收益,达到消费者与商家的共赢,极具现实意义。为了满足这
一广泛性的需求,在互联网行业出现了两种技术来解决这一问题,其一是众所周
知的搜索引擎技术;其二便是我们日常接触的推荐系统技术。尽管目前在互联网
上,关于推荐系统的应用十分广泛,算法繁多,理论成熟,但是仍然存在着许多
问题和挑战,诸如:数据稀疏性问题、推荐质量问题、推荐实时性问题、冷启动
问题等。为了能够有效地解决以上难题,本文对推荐系统的推荐质量和推荐实时
性这两个问题进行了探讨。首先介绍立论的相关背景,接着详细探讨了相关的大
数据处理技术,包括分布式文件系统(HDFS)、内存计算引擎(Spark)、消息
队列(Kafka)等主流的大数据技术;同时介绍了推荐系统中的相关算法,并探
索将深度学习技术应用在推荐系统中,利用神经网络强大的拟合能力来提高推荐
质量,最后使用目前流行的大数据处理技术实现了一个简易的实时电影推荐系
统。本文的主要成果有:
(1) 在推荐质量问题方面,充分利用用户的隐式反馈数据来建模,探索在推
荐算法中使用深度学习相关技术,利用一个神经网络结构来替代隐空间特征向量
的内积,将协同过滤算法用神经网络模型进行形式化,间接地从用户的隐式反馈
中推断出用户的偏好,进而提高推荐质量。并在 MovieLens 数据集上进行了实验
来验证该模型的有效性,并进一步探讨隐层数和激活函数对推荐质量的影响。
(2) 在推荐实时性问题方面,提出了实时推荐系统的 Lamda 物理架构,而后
进行系统设计,主要包括三个重要模块:一是数据预处理模块,包括对数据进行
分析统计,对原始数据进行清洗,使之成为算法所需的格式,并存储到 HDFS
上;二是模型训练模块,经过参数交叉调优训练出最优模型,并将模型保存到分
布式文件系统中,供后续模块调用;三是推荐模块,包括普通的 top-K 个性化推
荐,以及实时推荐等内容。
实验结果表明,本文提出的神经网络模型能够有效地提高推荐质量,设计的
实时推荐系统架构也具有一定的实用价值,能够有效解决推荐质量和实时性两大
问题。
关键字:推荐系统;大数据;深度学习;协同过滤;个性化推荐
成都理工大学硕士学位论文
II
Research on Real-time Movie Recommender System Based on
Spark
Abstract
With the advent of the Internet era, Web2.0 and the Internet of things technology
are developing rapidly, and more and more data are generated every year in the world.
How to help people find information that they are interested in from these massive
data, and bring more profits for the merchants and achieve the win-win situation of
consumers and businesses, is of great practical significance. In order to meet this
widespread demand, there are two technologies to solve this problem in the Internet
industry, one is the well-known search engine technology, and the other is our daily
contact recommendation system technology. Although on the Internet, the application
of recommendation system is very wide, there are many algorithms and mature
theories, but there are still many problems and challenges, such as: data sparsity,
recommendation quality and recommendation real-time, cold start. In order to solve
these problems effectively, this paper discusses the two aspects of recommendation
quality and recommendation real-time. First, it introduces the relevant background of
the theory, and then discusses the related large data processing techniques, including
the major data technologies, such as distributed file system (HDFS), memory
computing engine (Spark) and message queue (Kafka), and also introduces the related
algorithms in the recommendation system, and explores the application of deep
learning technology. In the recommendation system, the strong fitting ability of the
neural network is used to improve the quality of the recommendation. Finally, a
simple real-time movie recommendation system is realized by using the popular data
processing technology. The main achievements of this article are as follows:
(1) In the recommendation quality problem, the implicit feedback data Lai
Jianmo of the user is fully utilized, and the depth learning related technology is used
in the recommendation algorithm, and a neural network structure is used to replace
the inner product of the eigenvector of the hidden space. The collaborative filtering
algorithm is formalized by the neural network model and indirectly from the user's
implicit formula. The user's preferences are deduced from the feedback, thus
improving the quality of recommendation. Experiments were carried out on the
MovieLens dataset to verify the validity of the model, and the influence of hidden
剩余66页未读,继续阅读
qq_24516649
- 粉丝: 0
- 资源: 6
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 微信小程序源码 车源宝 二手车交易平台 源码下载
- 微信小程序源码 实现 城市切换 demo 根据城市首字母排序城市 选择城市 源码下载
- VMware7.0虚拟机硬盘无法编辑,无法连接到Profile-Driven Storage Service
- arm64内核的mongo镜像
- 基于stm32f103c单片机+MPU6050+0.96英寸OLED显示屏双柄遥控器硬件(原理图+PCB)工程文件.zip
- 整理的关于少儿编程的学习路径,以及如何在小升初,初升高和大学充分的利用起来编程经验的优势
- nhit完整源码+论文学习
- 足球比赛结果统计表2006-2011年大约28W场比赛
- 基于PHP+mysql的社区交流系统(源代码)
- yolov5,SSD 可能使用到的一些代码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0