没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
2023 试题回忆:
一、填空题(1 分*36,记不全了,我尽力)
1.推荐算法三个评测维度:___, ____, ____;
2.RS 三个核心问题:____, ____, ____;
3.基于人口统计学的推荐算法,输入是____和____;
4.用户活跃度的分布符合____分布;
5.解决冷启动问题的三个途径:____ , ____和____;
6.矩阵分解的工具有:______;
7.上下文感知信息包括用户心情、___和____等
8.UGC 的全称是_____;
9.Bandit 算法评估指标是____;
10.Tompson Sampling 用到了____分布;
11.COFIBA 算法是____与____的合体;
12.现代推荐系统框架中,在线部分大致分为两个阶段:____和____,其中第一阶段的主要算法
有____和____;
13.社区发现(Community Detection)算法, 可以视为一种广义的____算法;社区发现算法
有 GN、Louvain、____和_____算法等;
14.社会正则化方式有 基于平均的正则化___或者___基于个体的正则化_
15.组群推荐传统策略:____和____;
16.在图结构中,用户行为用___表示
二、写出下列算法的思想、公式、用途和特点(10 分*4)
1.SVD++ 2.FM 3. PersonalRank 4.UCB
三、简答题(12 分*2)
1. 简述推荐系统评测方法;
2.user-based VS item-based,试从思想、应用等方面进行比较
算 法 总 结 : FunkSVD 算 法 biasSVD SVD++ nmf BPR time-svd++ simRank
personalRank 因子分解机 FM LFM(隐语义模型)
时间图模型算法 usercf itemcf CB bandit 算法(Thompson sampling、UCB) LinUCB
一、大众化推荐
1. MostPopular 算法:
MostPopular 算法
a) 对每个用户都选择出当前流行度最高的 Top-K 个物品进行推荐
b) 大众化推荐
MostPopular 算法 变种 1
c) 在推荐的时候,需要去除用户原先就浏览过的项目
d) 加入个性化因素
MostPopular 算法 变种 2
– 根据用户人工统计学信息对用户分组
– 每组给出当前流行度最高的 Top-K 个物品进行推荐
– 在推荐的时候,需要去除用户原先就浏览过的项目。
MostPopular 算法 变种 3
• 统计当前流行度最高的 Top-N 个物品
• 去除用户原先就浏览过的项目
• 按用户活跃程度选择其中 K 个物品
二、基于人口统计学的推荐
算法输入:用户信息、其他用户的行为日志
基于人口统计的推荐 VS MostPopular 算法 2
• 基于人口统计的推荐
– 计算用户相似度(人口统计信息)
– 预测物品评分
MostPopular 算法 变种 2
– 根据用户人工统计学信息对用户分组(不是人口统计)
– 每组给出当前流行度最高的 Top-K 个物品进行推荐
• 优点:
– 不需要使用当前用户对物品的喜好历史数据,
• 对于新用户来讲没有“冷启动”的问题。
– 不依赖于物品本身的数据,
• 在不同物品的领域都可以使用,它是领域独立的
• 缺点:
– 方法过于粗糙,对于品味要求较高的领域,比如图书,电影和音乐等领域,
无法得到很好的推荐效果。
– 敏感信息与隐私保护
– 人口统计信息获取困难
• 用户的性别、年龄、地区、职业、受教育程度、职业等
• 网站-微博 关联
三、基于内容的推荐
输入:物品信息、用户行为日志
CB 原理:评估用户还没看到的物品与当前用户过去喜欢的物品的相似程度。
• 1. 将产品分解为一系列标签。
• 2. 基于用户行为(浏览、购买、收藏)计算每个用户的产品兴趣标签
• 3.针对所有新产品,分别计算每个用户的产品标签与每个新产品的相似度(基于
cosine similarity)
CB 步骤:
1、给出物品表示(内容分析):为每个物品抽取出一些特征来表示此物品;
2、学习用户偏好(特征学习):利用一个用户过去喜欢(及不喜欢)的物品的特征
数据,来学习出此用户偏好;
3、生成推荐列表(过滤组件):根据候选物品表示和用户偏好,为该用户生成其最
可能感兴趣的 n 个物品。
CB 特点:
优点:_ 用户之间的独立性,互不干扰
– 满足用户的小众偏好
– 较好的可解释性
– 一定程度解决数据稀疏问题和 item 冷启动问题
缺点:
– 计算量大
– 用户冷启动,无法为新用户产生推荐
- 无法挖掘出用户的潜在兴趣,缺乏惊喜
– 特征提取问题,item 的特征抽取困难
• 是否有意义
• 邻域思想:不同 item 的特征组合
四、基于协同过滤的推荐
算法输入:评分矩阵、所有用户的行为日志
优点:
– 不需要太多特定领域的知识,
– 可以通过基于统计的机器学习算法来得到较好的推荐效果。
– 最大的优点是工程上容易实现,可以方便应用到产品中。
缺点:冷启动问题、兴趣漂移
(一)基于邻域的 CF
1.user-based CF(最古老,标志着推荐系统的诞生)
思想:通过不同用户对 item 的评分来评测用户之间的相似性,基于用户之间的相似性
做出推荐
步骤:找到与此用户有相似兴趣的其他用户
• 用户相似度计算
然后将他们感兴趣的内容推荐给此用户。
• 邻居用户对商品评价的加权评价值
公式:1> 用户相似度度量方法
欧式距离:
Jaccard 相似度:
余弦相似度:
变种,当评分只有 0 和 1 时
变种,惩罚热门物品
皮尔逊相关系数:
把数据标准化后的向量余弦相似度
2>评分预测公式
2. item-based CF
思想:通过用户对不同 item 的评分来评测 item 之间的相似性,基于 item 之间的相似性做
出推荐;预测目标用户对特定商品的喜好程度,系统从而根据这一喜好程度来对目标用户进
行推荐。
公式:1>item 相似度计算
惩罚活跃度高的用户
惩罚热门的物品 j
2>评分预测
3. userCF vs itemCF
UserCF
a) Item 数目往往非常庞大
b) 结果着重于反映和用户兴趣相似的小群体的热点
c) 更社会化,反映了用户所在的小型兴趣群体中物品的热门程度
d) 应用:新闻推荐
ItemCF
e) 用户数目往往非常庞大
f) 结果着重于维系用户的历史兴趣。
g) 更加个性化,反映了用户自己的兴趣传承。
h) 应用:图书推荐
4、Item-based CF VS Content-based
Item-based CF
需要某种形式的评级反馈,对于新用户和新物品都有冷启动问题
Content-based
不同的物品之间可以比较
内容描述必要的,对于新用户有冷启动问题,没有惊喜
(二)基于模型的 CF
1.LFM
核心思想
– 通过隐含特征(latent factor)联系用户兴趣和物品。
– 对于某个用户,首先找到他的兴趣分类,然后从分类中挑选他可能喜
欢的物品
• 目标:挖掘用户的潜在因子和物品的潜在因子
解决的问题: 基于用户行为统计对物品进行分类
确定用户对哪些物品类别由兴趣
确定物品在各个类别中的权重
2.FunkSVD(解决传统 SVD 的数据稀疏和计算效率问题)
(1)FunkSVD 是在传统 SVD 面临计算效率问题时提出来的,既然将一个矩阵做 SVD 分
解成 3 个矩阵很耗时,同时还面临稀疏的问题,那么我们能不能避开稀疏问题,同时只分解
成两个矩阵呢?
剩余33页未读,继续阅读
资源评论
wwwwmwwww
- 粉丝: 6
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功