没有合适的资源?快使用搜索试试~ 我知道了~
资源详情
资源评论
资源推荐
![](https://csdnimg.cn/release/download_crawler_static/86286454/bg1.jpg)
2022/4/27 13_dnn_rec_system2
huaxiaozhuan.com/深度学习/chapters/13_dnn_rec_system2.html 1/139
十一、Pinterest Recommender System[2017]
1. 虽然已经有很多关于高级推荐系统及其实际应用的论文发表,但是通常不可能直接构建 state-
of-the-art 的推荐系统。最初的产品 initial product 必须用一个小的工程团队、有限的计
算资源、以及缺乏训练数据来构建,直到推荐系统被启用 bootstrapped 。工业级的推荐系统通
常处理包含数十亿个 item 的 Web-scale 数据。由于内容是通过用户隐式反馈 implicit
user feedback 收集的,因此内容通常标记不佳并且有很大噪音 noisy 。因此,很多从业者在
构建初始系统时选择使用临时的启发式方法 heuristics 来 trade-off 。但是,系统的进一步
增长 grow 会使得系统迅速复杂化,从而难以应对接下来的变化。
在论文 《Related Pins at Pinterest: The Evolution of a Real-World Recommender
System》 中,作者给出了在 Related Pins 背景下以独特的机会在三年的时间范围内观察这些
问题。 Related Pins 的初始版本是在 2013 年推出的,是 Pinterest 首次进入推荐系统的尝
试之一。尽管在改善内容发现 content discovery 取得了成功,但是 Related Pins 最初在
工程上受到的关注很少。 2014 年, Pinterest 上大约 10% 的 pins saved 是通过 Related
Pins 发现 discovered 的。 2015 年,一个小团队开始迭代并进一步开发 Related Pins 。现
在, Related Pins 通过多个产品界面 product surfaces 推动了超过 40% 的保存 save 和曝
光 impression ,并且是 Pinterest 上的主要发现机制 primary discovery mechanisms 之
一。论文通过对 Related Pins 的纵向研究,探索了现实世界中推荐系统的挑战。在描述
Pinterest 系统的逐步演变时,作者提出了应对这些挑战的解决方案、 trade-off 的理由、以
及学到的关键洞察 key insights 。
现实世界的推荐系统已经作为音乐推荐 music suggestion 、图像搜索 image search 、视频
发现 video discovery 、电影发现 movie discovery 。其中很多论文描述了 final
system ,然而并没有描述如何逐步增量地 incrementally 构建系统。 《Hidden technical
debt in machine learning systems》 描述了现实世界推荐系统面临的很多挑战,我们提供
了在 Related Pins 中这些挑战的具体例子,并提出了独特的解决方案。
对于 Related Pins ,我们首先考虑最简单、性价比最高 highest-leverage 的产品,从
而达到增量式的里程碑 incremental milestones 并证明可行性 viability 。我们最初
的推荐算法由一个简单的候选生成器 candidate generator 以及很多启发式规则
heuristic rules 组成。尽管它仅在三周内建成,但是它利用了 user-curated boards
中的强烈信号 strong signal 。我们继续添加更多的候选源 candidate sources ,因为
我们发现了覆盖率 coverage 和召回率 recall 之间的 gap 。
随着时间的推移,我们引入了 memorization layer 来提高热门的结果 popular
results 。 Memboost 在工程复杂度和计算强度方面都是轻量级的,但是它能显著地利用大
量的用户反馈 user feedback 。我们不得不考虑位置偏差 position bias ,并以反馈回
路 feedback loops 的形式处理复杂性 complexity ,但是发现付出的代价是值得的。
接下来我们添加了一个机器学习的 ranking 组件,因为我们认为它具有最大的影响潜力。
我们从只有九个特征的基础线性模型开始。当我们发现模型和训练方法的缺点时,我们开始
尝试使用更高级的方法。
每个组件最初都是在工程和计算资源上有很多限制的情况下构建的,因此我们优先考虑了最简单和
最高效的解决方案。我们展示了有机增长 organic growth 如何导致一个复杂的系统,以及我们
如何管理这种复杂性。
11.1 系统介绍
![](https://csdnimg.cn/release/download_crawler_static/86286454/bg2.jpg)
2022/4/27 13_dnn_rec_system2
huaxiaozhuan.com/深度学习/chapters/13_dnn_rec_system2.html 2/139
1. Pinterest 是用于保存 saving 和发现 discovering 内容 content 的可视化发现工具
visual discovery tool 。用户将他们在 Web 上找到的内容另存为 pins ,并在 boards 上
创建这些 pins 的集合。
Related Pins 利用这些人类收藏的 human-curated 内容基于给定的 query pin 来提供个性
化的 pin 推荐。下图给出了 pin 特写视图 pin closeup view 。
Pinterest 其它几个部分也包含 Related Pins 推荐,包括主页 feed 流 home feed 、访客
(身份未验证的访问者)的 pin page 、相关想法 related ideas 的 instant ideas 按钮、
电子邮件 email 、通知 notification 、搜索结果 search result 、浏览选项卡 Explore
tab 。
![](https://csdnimg.cn/release/download_crawler_static/86286454/bg3.jpg)
2022/4/27 13_dnn_rec_system2
huaxiaozhuan.com/深度学习/chapters/13_dnn_rec_system2.html 3/139
2. Pinterest 上的用户互动 user engagement 通过以下操作来定义:
用户通过点击来查看有关 pin 的更多详细信息从而特写 closeup 这个 pin 。
然后,用户可以点击从而访问关联的 Web 链接。如果用户长时间 off-site ,那么被视为
长按 long click 。
最后,用户可以将 pin 保存到自己的 board 上。
![](https://csdnimg.cn/release/download_crawler_static/86286454/bg4.jpg)
2022/4/27 13_dnn_rec_system2
huaxiaozhuan.com/深度学习/chapters/13_dnn_rec_system2.html 4/139
我们对推动相关 pin 的保存倾向 Related Pins Save Propensity 很感兴趣,它的定义是:保
存 Related Pins 推荐的 pin 的数量除以用户看到的 Related Pins 推荐的 pin 的数量。
3. 在 Pinterest 数据模型 data model 中,每个 pin 都是一个带链接 link 和描述文本
description 的图像实例 image instance ,其中图像是通过一个图像签名 signature 来唯
一标识的。尽管每个 pin 位于单个 board 上,但是同一个图像可以用于不同 board 上的很多
pin :当 pin 保持到一个新的 board 上时,会创建该 pin 的拷贝。
pin 信息通常在 image signature level 上进行汇总,从而提供了比单个 pin 实例相比更丰
富的元数据 meta-data (比如 pin 粒度的点击量、保存量)。为方便起见,将来对 query
pin 和 result pin 的引用实际上指的是 pin 的集合,该集合中的 pin 具有相同 image
signature 。
4. Related Pins 系统包含以下三个主要组件 components 。随着时间的推移,这些组件已经被陆
续引入到系统中,并且每个组件以各自的方式发生了巨大的演变 。下图给出了我们体系结构的各
种快照 snapshots ,说明了整个系统以及三个组件的演变 evolution 。本文后续部分将更详细
地探讨它们的发展。
Candidate Generation 组件:我们首先将候选集合 candidate set (符合 Related
Pin 推荐的 pin 集合)的范围从数十亿缩小到大约 1000 个可能和 query pin 相关
related 的 pin 。
我们已经开发并迭代了几种不同的候选生成器 candidate generators 来做到这一点。
Memboost 组件:我们系统的一部分会记住历史上特定 query 和 result 的 pair 对上的
互动。我们描述了在使用历史数据时,如何通过使用点击除以期望点击的方式来解决位置偏
见 position bias 问题。
引入记忆会增加带有反馈回路 feedback loops 系统的复杂性,但是会显著提高互动
engagement 。
Ranking 组件:我们应用一个机器学习的 ranking model 到 pin 上,对这些 pin 排序
从而最大化我们的 Save Propensity 的目标互动指标 target engagement metric 。
该模型结合了 query 特征、 candidate pins 特征、用户画像特征、 session 上下文特
征、 Memboost 信号等特征的组合。
我们采用了 learning-to-rank 技术,采用历史用户互动 user engagement 来训练系
统。
![](https://csdnimg.cn/release/download_crawler_static/86286454/bg5.jpg)
2022/4/27 13_dnn_rec_system2
huaxiaozhuan.com/深度学习/chapters/13_dnn_rec_system2.html 5/139
11.2 Candidate Generation 的演变
1. 最初的 Related Pins 系统仅包含一种形式的候选生成 candidate generation :通过抽取经
常共现 co-occurring 的 pins 来利用 pin-board graph 。这些候选 pins 作为推荐直接显示
给用户(上图的 (a) )。
后来我们引入了 Memboost 和 machine-learned ranking 时,候选生成的问题从
precision 转移到了 recall :生成和 query pin 相关的各种各样 diverse 的 pins 集合。
由于我们发现了覆盖率 coverage 和召回率 recall 方面的差距,这导致我们添加了新的候选源
candidate sources (上图的 (d) )。
11.2.1 Board 共现
1. 我们主要的候选生成器 candidate generator 是基于用户收藏的 user-curated boards 和
pins 的 graph ,但是随着时间的推移我们改变了这个方法从而产生更相关 relevant 的结果并
覆盖更多的 query pins 。
2. 启发式候选 Heuristic Candidates :原始的 Related pins 是在离线 Hadoop Map/Reduce
作业中计算的。我们输入 boards 的集合,输出在同一个 board 上共现的 pin pair 对。由于
有太多的 pin pair 对,因此对于每个 pin query 我们随机采样这些 pair 对从而为每个 pin
query 产生大致相同数量的候选。
随机采样时,共现次数越高的 pin pair 对被采样到的可能性越高,因此相当于选择 top
共现次数的 pin pair 。但是基于采样的方法避免了对 pin pair 的共现计数、以及对计
数结果的排序。
我们还基于粗略 rough 的文本和类目 category 匹配来添加启发式的相关性得分 heuristic
relevance score 。这个相关性得分是通过检查示例结果 example results 来手动调优
hand-tuned 的。
剩余138页未读,继续阅读
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![txt](https://img-home.csdnimg.cn/images/20210720083642.png)
![txt](https://img-home.csdnimg.cn/images/20210720083642.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![avatar](https://profile-avatar.csdnimg.cn/86325867044f472e902d0f758a489353_weixin_35781147.jpg!1)
高中化学孙环宇
- 粉丝: 14
- 资源: 338
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
最新资源
- Arduino多级菜单库
- JDFinancial.apk
- 使用numpy从零搭建深度神经网络(DNN)
- LoRaWAN协议与IoT应用:端到端的加密传输和身份验证机制,确保数据在传输过程中的保密性和完整性
- 三菱电脑与机台传输软件
- oRaWAN是一种基于LoRa技术的广域网通信协议,适用于物联网(IoT)场景 您可以使用LoRaWAN协议进行设备通信,并通过
- LoRa网络规划与优化:关于如何设计和优化LoRa网络覆盖范围和数据传输效率的指南和文档
- Python爬虫获取小说信息(带实验报告)
- LoRaWAN应用案例:如城市智能化、农业监控等领域的实际应用案例
- LoRa模块示例应用:例如使用Arduino和Semtech LoRa模块进行远程数据采集和传输
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback-tip](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)
评论0