文 | Shon a
在广告、电商场景中,流式样本通常只会在一个较短的窗口采样用户的行为,但用户从点击到
转化的时间窗口可能很长,比如逛淘宝时,点击一件商品后可能在其他平台对比很久后才会下
单,这导致在流式样本采样的时间窗口中并未记录该转化行为,进而该样本被错误地归为正样
本,从而影响CVR预估效率,这类问题通常被称作延迟反馈(Delayed Feedback)问题。
延迟反馈是流式样本中的典型问题,理想状态当然是使采样的窗口足够大,但是这会导致很高
的存储成本,不是很划算。因此早期针对延迟反馈问题,一般都会引入一个模型预测转化的延
迟时间进而利用延迟转化的样本,但是在业界的流式架构中很难避免这个预测转化时间的模型
使用无偏样本训练,并且延迟的样本比较稀疏,较难有较高的精度。
现在针对延迟反馈问题,通常聚焦在如何充分利用正样本上。延迟反馈的样本在不同的采样窗
口中会分别生成不同label的样本,这两条样本都会参与训练,这会导致训练样本的分布与真实
样本分布存在bias,需要使用重要性采样对延迟反馈的样本进行纠偏,尽管这种方式在很多场
景下都是有效的,但是这种方式不能解决假负样本也参与训练的问题,可能会影响模型精度。
阿里这篇文章通过矫正重要性采样中不同样本的权重优化了延迟反馈问题,在公开数据集以及
工业界的数据集上都取得了较好的效果。
论 文 标 题 :
Asymptotically Unbiased Estimation for Delayed Feedback Modeling via Label Correction