【免费】PracticalLessonsfromPredictingClicksonAdsatFacebook论文阅读资源-CSDN文库

需积分: 0 74 浏览量 2022-08-03 20:49:25 上传评论收藏 1.11MB PDF 举报

【论文背景】《Practical Lessons from Predicting Clicks on Ads at Facebook》这篇论文探讨了在Facebook这样的大型社交网络平台上预测广告点击率的实践经验和创新方法。由于在线广告的付费模式通常基于用户对广告的响应，如点击，因此点击率预测系统在在线广告体系中至关重要。面对每天数以亿计的活跃用户和数十万的活跃广告商，Facebook面临的CTR预测任务极具挑战性。【模型架构】论文提出了一种结合逻辑回归（LR）和梯度提升决策树（GBDT）的模型，该模型通过将GBDT的叶节点编号作为非线性特征的表示，增强模型的表达能力。LR用于捕捉线性关系，而GBDT则用于捕获非线性和复杂交互。LR+GBDT的组合在预测性能上显著优于单独使用LR或GBDT，提高了超过3%的准确率，这对于大规模的广告系统来说具有显著的影响。【特征工程】特征选择和编码在预测性能中起着决定性作用。历史用户行为和广告信息的特征最为重要，它们优于其他类型的特征。论文还研究了如何将连续特征和离散特征有效地整合到模型中。对于连续特征，可能需要进行适当的归一化或标准化处理；而对于离散特征，可以将其视为有监督的特征编码，通过决策树的路径表示其价值。【系统优化】除了模型选择，论文还关注了在线学习、数据新鲜度、学习率调度和数据采样的影响。虽然这些因素的改进带来的提升相对较小，但在大规模系统中，即使是微小的改善也能产生可观的效益。例如，保持数据新鲜度有助于模型适应快速变化的用户行为，合适的在线学习策略可以实时更新模型，而有效的数据采样可以平衡模型的训练效率和泛化能力。【广告展示】在Facebook的环境下，广告的展示并不依赖于用户的即时查询，而是根据用户的人口统计特性和兴趣偏好。因此，系统需要构建复杂的广告候选生成机制，这通常涉及多个分类器的级联。论文主要关注的是最终的预测模型，它直接输出CTR概率，对广告展示的决策至关重要。【结论】《Practical Lessons from Predicting Clicks on Ads at Facebook》提供了关于在大规模环境下优化CTR预测模型的宝贵经验。它强调了特征工程的重要性，展示了LR+GBDT模型的优势，并探讨了系统层面的优化策略。这些实践教训对于任何处理类似问题的机器学习工程师和数据科学家都具有很高的参考价值。

资源详情

资源评论

资源推荐

Abstract

Online advertising allows advertisers to only bid and pay for measurable user responses, such as clicks on

ads. As a consequence, click prediction systems are central to most online advertising systems. With over 750

million daily active users and over 1 million active advertisers, predicting clicks on Facebook ads is a

challenging machine learning task. In this paper we introduce a model which combines decision trees with

logistic regression, outperforming either of these methods on its own by over 3%, an improvement with

signiﬁcant impact to the overall system performance. We then explore how a number of fundamental

parameters impact the ﬁnal prediction performance of our system. Not surprisingly, the most important thing

is to have the right features: those capturing historical information about the user or ad dominate other types

of features. Once we have the right features and the right model (decisions trees plus logistic regression),

other factors play small roles (though even small improvements are important at scale). Picking the optimal

handling for data freshness, learning rate schema and data sampling improve the model slightly, though

much less than adding a high-value feature, or picking the right model to begin with.



介

绍

1.1

论

文

背

景

本文主要介绍Facebook提出的CTR预估模型LR(Logistic Regression)+GBDT。当时深度学习还没有应用到计算广告领

域，Facebook提出利用GBDT的叶节点编号作为非线性特征的表示，或者说是组合特征的一种方式。

LR+GBDT相比于单纯的LR或者GBDT带来了较大的性能提升，论文中给出数据为3%，这在CTR预估领域确实非常不

错。除此之外，Facebook还在在线学习、Data freshness、学习速率、树模型参数、特征重要度等方面进行了探

索。

相比于搜索广告领域，根据用户query来给出候选广告，然后利用Rank模型对候选广告进行排序。这些广告要么显式

要么隐式的和用户query相关联。但是在Facebook这样的社交场合中，广告并没有和用户query相关联，但是用户看

到的广告一定程度上反映了用户的人口统计特性和兴趣特性。基于这个原因，在Facebook上展示的广告相比于搜索

广告中的要多一些。

在实际的生产环境中，为每个用户确定广告候选是一件系统性设施工作，Facebook主要通过做多个分类器级联来实

现。但是论文中分析的是最后的那一个prediction模型。它直接给出最后的CTR概率。

1.2

研

究

背

景

CTR预估（Click-Through Rate Prediction）是互联网计算广告中的关键环节，预估准确性直接影响公司广告收入。

CTR预估中用的最多的模型是LR（Logistic Regression），LR是广义线性模型，与传统线性模型相比，LR使用了

Logit变换将函数值映射到0~1区间，映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行化，处理上亿条

训练样本不是问题，但线性模型学习能力有限，需要大量特征工程预先分析出有效的特征、特征组合，从而去间接增

强LR的非线性学习能力。

LR模型中的特征组合很关键，但又无法直接通过特征笛卡尔积解决，只能依靠人工经验，耗时耗力同时并不一定会

带来效果提升。如何自动发现有效的特征、特征组合，弥补人工经验不足，缩短LR特征实验周期，是亟需解决的问

题。Facebook 2014年的文章介绍了通过GBDT（Gradient Boost Decision Tree）解决LR的特征组合问题，随后

Kaggle竞赛也有实践此思路，GBDT与LR融合开始引起了业界关注。 GBDT（Gradient Boost Decision Tree）是一

种常用的非线性模型，它基于集成学习中的boosting思想，每次迭代都在减少残差的梯度方向新建立一颗决策树，迭

代多少次就会生成多少颗决策树。GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合，决策

树的路径可以直接作为LR输入特征使用，省去了人工寻找特征、特征组合的步骤。

这种通过GBDT生成LR特征的方式（GBDT+LR），业界已有实践（Facebook，Kaggle-2014），且效果不错，是非

常值得尝试的思路。



评

估

函

数

论文目的是分析机器学习模型的影响因素，所以没有使用实际利益相关的评测函数。而是主要从以下两方面进行：

Normalized Cross-Entropy 或者叫做 Normalized Entropy，缩写NE

Calibration 校准

2.1 Normalized Cross-Entropy (NE)

NE的公式如下：

参数解释： : 样本数； : 训练集标签； : 平均历史点击率；

NE等于预测的log loss除以background CTR的熵

NE越小模型性能越好

除去background CTR的熵，使得NE对background CTR不敏感

p代表平均经验CTR

2.2 Calibration

Calibration校准是平均预测CTR与经验CTR的比值，它是一个比例。

Calibration越接近1，模型性能越好

AUC也是一个非常不错的评价指标，但是它有个问题。比如当我们的模型预测的CTR概率都偏高了2倍，我们可以通

过Calibration校准，使用一个全局的0.5的系数来修正。修正之后NE也会提高，而AUC却保持不变。在实际工作中，

我们希望得到的是尽可能准确的预测每个广告被点击的概率，而不是仅仅得到相对的概率排序。所以AUC不如上面的

NE、Calibration合适。



模

型

架

构

经过多次实验，FB得出结论：

正

确

的

模

型

强

特

征

是提升模型性能的核心。相比于这两点，其他的因素的影响就小

很多，比如学习速率、采样率等。当数据量足够大时，一个好的模型应该是稳定的，也就说参数的调整不会导致模型

性能出现剧烈的震荡。

这里面，正确的模型就是指：Logistic Regression + Boosting Decision Tree。特征的话包含两方面的特征：

用

户

或

广

告

的

历

史

信

息

特

征

、

上下

文

特

征

。

其中，

用

户或

广

告

的

历

史

信

息

特

征

取

决

定

性

作

用

。

剩余17页未读，继续阅读

评论收藏

内容反馈

一筐猪的头发丝

粉丝: 834
资源: 315

Practical Lessons from Predicting Clicks on Ads at Facebook 论文阅读

评论0

最新资源

Practical Lessons from Predicting Clicks on Ads at Facebook 论文阅读

评论0

Practical_Lessons_from_Predicting_Clicks_on_Ads_at_Facebook.pdf

大学英语精读第二册 Unit lessons from JeffersonPPT学习教案.pptx

Lessons_from_Huawei_v_ZTE_-_RJacob_-_24-10-16_Huaweiv.Zte_

Real World Lessons from Big Data Deployments

「勒索软件」Lessons from GDPR Enforcement What Security Is Appropri

「数据库审计」How to Reduce Supply Chain Risk Lessons from Efforts t

藏经阁-Scaling SparkR in Production. Lessons from the Field.pdf

「数据安全」Privacy By Design Lessons from Beyonce - 渗透测试.zip

FRM-Risk_Management_lessons_from_Long-Term_Capital_Manangement

Big Data and Cloud Computing for Development Lessons from Key 无水印原版pdf

Lessons Learned While Building Infrastructure Software at Google

藏经阁-Lessons Learned From Dockerizing Spark Workloads.pdf

信息安全_数据安全_Lessons from Americas Two Larges.pdf

藏经阁-Scaling SparkR in Production. Lessons from the Field..pdf

信息安全_数据安全_Build Your Own IDaaS Lessons from Year One.pdf

springlink物联网经典论文

Lessons Learned from Building real-life Recsys

Pension Design and Structure New Lessons from Behavioral Finance

Shackleton's Way- Leadership Lessons from the Great Antarctic Ex

信息安全_数据安全_Lessons from GDPR Enforcement Wh.pdf

A blueprint for remote working- Lessons from China-麦肯锡.rar

信息安全_数据安全_Privacy By Design Lessons from B.pdf

Scientist: Four golden lessons

Lessons on Leadership.pdf

藏经阁-Lessons Learned From Managing Thousands of Apache Spark Clus

「移动安全」How_to_Reduce_Supply_Chain_Risk_Lessons_from_Efforts_to

最新资源