【免费】20.神经网络推荐算法(续)1资源-CSDN文库

需积分: 0 139 浏览量 2022-08-03 14:25:47 上传评论收藏 18.48MB PDF 举报

在推荐系统领域，神经网络推荐算法扮演着至关重要的角色，特别是在大规模Web-scale数据处理中。本文将基于“20.神经网络推荐算法(续)1”的主题，深入探讨神经网络在推荐系统中的应用，以及Pinterest的Related Pins推荐系统的发展历程。推荐系统的目标是通过理解用户的兴趣和行为模式，为他们提供个性化的内容，以提高用户的互动engagement和Save Propensity（保存倾向）。神经网络在这一领域的优势在于其强大的非线性表达能力和对复杂模式的学习能力。它们可以捕捉用户与item之间的微妙关系，以及隐式反馈隐含的用户偏好。在Pinterest的Recommend Pin系统中，初始版本采用了简单的候选生成器和启发式规则，这在资源有限的情况下是一种有效的策略。候选生成器用于从海量内容中筛选出可能对用户感兴趣的部分，而启发式规则则用于进一步过滤和排序。这种简单的方法虽然易于实现，但随着数据量的增长和用户需求的多样化，需要逐步提升系统的复杂性和准确性。随着系统的迭代发展，为了扩大覆盖率和召回率，引入了更多的候选源。然后，为了提高热门结果的准确性和用户体验，引入了memorization layer，如Memboost。这是一个轻量级的记忆机制，能够有效地利用用户反馈来优化推荐结果，同时增加了系统的复杂性，带来了反馈回路。尽管如此，这种复杂性的增加是必要的，因为它显著提高了用户的engagement。为了进一步提升推荐质量，Pinterest引入了机器学习的排名组件。最初采用的是一个基础的线性模型，包含九个特征，随后不断优化模型和训练方法。这包括解决位置偏差问题，因为推荐列表的位置可能会影响用户的点击行为。随着模型复杂性的增加，例如通过使用深度神经网络（DNN），推荐系统能够处理更复杂的特征交互，并从大量用户行为中提取更深层次的模式。在构建推荐系统的过程中，往往需要在性能和复杂性之间做出trade-off。在Pinterest的案例中，逐步增量的开发方式允许团队在资源有限的情况下逐步改进系统。每个阶段的目标是实现最高的性价比，通过达到增量式的里程碑来证明系统的可行性。这种方法有助于避免一次性投入过多的技术债务，同时也确保了推荐系统的稳定性和适应性。神经网络推荐算法在现代推荐系统中扮演着核心角色。它们能够处理大规模数据，学习用户的行为模式，并且随着系统的发展，可以通过引入记忆机制和深度学习排名组件来持续优化推荐质量。Pinterest的Related Pins案例提供了一个实用的例子，展示了如何在实践中逐步构建和优化推荐系统，平衡技术复杂性和实际效果。通过不断迭代和学习，推荐系统可以成为驱动用户engagement和Save Propensity的关键驱动力。

资源详情

资源评论

资源推荐

2022/4/27 13_dnn_rec_system2

huaxiaozhuan.com/深度学习/chapters/13_dnn_rec_system2.html 1/139

十一、Pinterest Recommender System[2017]

1. 虽然已经有很多关于高级推荐系统及其实际应用的论文发表，但是通常不可能直接构建 state-

of-the-art 的推荐系统。最初的产品 initial product 必须用一个小的工程团队、有限的计

算资源、以及缺乏训练数据来构建，直到推荐系统被启用 bootstrapped 。工业级的推荐系统通

常处理包含数十亿个 item 的 Web-scale 数据。由于内容是通过用户隐式反馈 implicit

user feedback 收集的，因此内容通常标记不佳并且有很大噪音 noisy 。因此，很多从业者在

构建初始系统时选择使用临时的启发式方法 heuristics 来 trade-off 。但是，系统的进一步

增长 grow 会使得系统迅速复杂化，从而难以应对接下来的变化。

在论文《Related Pins at Pinterest: The Evolution of a Real-World Recommender

System》中，作者给出了在 Related Pins 背景下以独特的机会在三年的时间范围内观察这些

问题。 Related Pins 的初始版本是在 2013 年推出的，是 Pinterest 首次进入推荐系统的尝

试之一。尽管在改善内容发现 content discovery 取得了成功，但是 Related Pins 最初在

工程上受到的关注很少。 2014 年， Pinterest 上大约 10% 的 pins saved 是通过 Related

Pins 发现 discovered 的。 2015 年，一个小团队开始迭代并进一步开发 Related Pins 。现

在， Related Pins 通过多个产品界面 product surfaces 推动了超过 40% 的保存 save 和曝

光 impression ，并且是 Pinterest 上的主要发现机制 primary discovery mechanisms 之

一。论文通过对 Related Pins 的纵向研究，探索了现实世界中推荐系统的挑战。在描述

Pinterest 系统的逐步演变时，作者提出了应对这些挑战的解决方案、 trade-off 的理由、以

及学到的关键洞察 key insights 。

现实世界的推荐系统已经作为音乐推荐 music suggestion 、图像搜索 image search 、视频

发现 video discovery 、电影发现 movie discovery 。其中很多论文描述了 final

system ，然而并没有描述如何逐步增量地 incrementally 构建系统。《Hidden technical

debt in machine learning systems》描述了现实世界推荐系统面临的很多挑战，我们提供

了在 Related Pins 中这些挑战的具体例子，并提出了独特的解决方案。

对于 Related Pins ，我们首先考虑最简单、性价比最高 highest-leverage 的产品，从

而达到增量式的里程碑 incremental milestones 并证明可行性 viability 。我们最初

的推荐算法由一个简单的候选生成器 candidate generator 以及很多启发式规则

heuristic rules 组成。尽管它仅在三周内建成，但是它利用了 user-curated boards

中的强烈信号 strong signal 。我们继续添加更多的候选源 candidate sources ，因为

我们发现了覆盖率 coverage 和召回率 recall 之间的 gap 。

随着时间的推移，我们引入了 memorization layer 来提高热门的结果 popular

results 。 Memboost 在工程复杂度和计算强度方面都是轻量级的，但是它能显著地利用大

量的用户反馈 user feedback 。我们不得不考虑位置偏差 position bias ，并以反馈回

路 feedback loops 的形式处理复杂性 complexity ，但是发现付出的代价是值得的。

接下来我们添加了一个机器学习的 ranking 组件，因为我们认为它具有最大的影响潜力。

我们从只有九个特征的基础线性模型开始。当我们发现模型和训练方法的缺点时，我们开始

尝试使用更高级的方法。

每个组件最初都是在工程和计算资源上有很多限制的情况下构建的，因此我们优先考虑了最简单和

最高效的解决方案。我们展示了有机增长 organic growth 如何导致一个复杂的系统，以及我们

如何管理这种复杂性。

11.1 系统介绍

2022/4/27 13_dnn_rec_system2

huaxiaozhuan.com/深度学习/chapters/13_dnn_rec_system2.html 4/139

我们对推动相关 pin 的保存倾向 Related Pins Save Propensity 很感兴趣，它的定义是：保

存 Related Pins 推荐的 pin 的数量除以用户看到的 Related Pins 推荐的 pin 的数量。

3. 在 Pinterest 数据模型 data model 中，每个 pin 都是一个带链接 link 和描述文本

description 的图像实例 image instance ，其中图像是通过一个图像签名 signature 来唯

一标识的。尽管每个 pin 位于单个 board 上，但是同一个图像可以用于不同 board 上的很多

pin ：当 pin 保持到一个新的 board 上时，会创建该 pin 的拷贝。

pin 信息通常在 image signature level 上进行汇总，从而提供了比单个 pin 实例相比更丰

富的元数据 meta-data （比如 pin 粒度的点击量、保存量）。为方便起见，将来对 query

pin 和 result pin 的引用实际上指的是 pin 的集合，该集合中的 pin 具有相同 image

signature 。

4. Related Pins 系统包含以下三个主要组件 components 。随着时间的推移，这些组件已经被陆

续引入到系统中，并且每个组件以各自的方式发生了巨大的演变。下图给出了我们体系结构的各

种快照 snapshots ，说明了整个系统以及三个组件的演变 evolution 。本文后续部分将更详细

地探讨它们的发展。

Candidate Generation 组件：我们首先将候选集合 candidate set （符合 Related

Pin 推荐的 pin 集合）的范围从数十亿缩小到大约 1000 个可能和 query pin 相关

related 的 pin 。

我们已经开发并迭代了几种不同的候选生成器 candidate generators 来做到这一点。

Memboost 组件：我们系统的一部分会记住历史上特定 query 和 result 的 pair 对上的

互动。我们描述了在使用历史数据时，如何通过使用点击除以期望点击的方式来解决位置偏

见 position bias 问题。

引入记忆会增加带有反馈回路 feedback loops 系统的复杂性，但是会显著提高互动

engagement 。

Ranking 组件：我们应用一个机器学习的 ranking model 到 pin 上，对这些 pin 排序

从而最大化我们的 Save Propensity 的目标互动指标 target engagement metric 。

该模型结合了 query 特征、 candidate pins 特征、用户画像特征、 session 上下文特

征、 Memboost 信号等特征的组合。

我们采用了 learning-to-rank 技术，采用历史用户互动 user engagement 来训练系

统。

剩余138页未读，继续阅读

评论收藏

内容反馈

高中化学孙环宇

粉丝: 16
资源: 338

20.神经网络推荐算法(续)1

评论0

最新资源

20.神经网络推荐算法(续)1

评论0

推荐算法探究

神经网络算法

21.神经网络推荐算法(续)1

15.图神经网络(续)1

第八讲续-卷积神经网络与循环神经网络的结合应用

前馈神经网络续ppt课件.ppt

基于BP神经网络的锂电池组SOC估算.pdf

Matlab 神经网络帮助文件（pdf）

神经网络分析应用.pdf

python构建深度神经网络（续）.pdf

电动汽车再生制动模糊神经网络控制策略研究.pdf

用于电动汽车电池SOC预测的BP神经网络模型.pdf

基于BP神经网络的锂电池SOC在线精确估算.pdf

基于连续Hopfield神经网络的立体库路径优化.pdf

细化算法及其在路径规划应用

python构建深度神经网络（续）

基于神经网络的增程式电动汽车能量管理策略研究.pdf

华为高级工程师ICT资源

基于改进PSO-RBF算法的纯电动汽车剩余里程实时预测.pdf

PC 游戏编程续（人机博弈源码）.rar

电动汽车动力电池锂电池SOC估算SOC相关研究技术论文资料100个合集.zip

微分几何第4章第4节（续）-第5节1

C#实现断点续传下载文件的程序源码.rar

融合车、路、人信息的电动汽车续驶里程估算.pdf

基于DSP的铅酸电池剩余容量在线检测系统设计

自适应控制理论与应用

多传感器的融合方法.docx

人工智能课程大纲.pdf

数据挖掘技术在信用卡业务中的应用案例分享.docx

最新资源