CAT-RFE：点击欺诈的集成检测框架.docx资源-CSDN文库

版权申诉

112 浏览量 2024-06-09 12:57:29 上传评论收藏 103KB DOCX 举报

资源推荐

资源详情

资源评论

0 引言

广告是互联网最主要的商业模式，已经逐步形成互联网广告产业。近年来，

整个产业的规模在持续快速增长。互联网用户打开网页或者移动手机应用都能

看到各式各样的广告。广告中最常见的一种付费模式是点击付费（pay per

click），即由广告商（advertiser）提供广告链接，发布者（publisher）可以

在自己的网站或应用中发布该广告链接，以此来赚取广告商的点击费用

[1]

。点

击付费商业模式简单，只通过点击就能产生收入，且广告点击欺诈的惩罚风险

相对较低，这让许多不法发布者有了可乘之机

[2]

。

点击欺诈是近年来最常见的网络犯罪手段之一，互联网广告行业每年都会

因为点击诈骗而遭受巨大的损失。为了减少广告商在点击付费模式中点击欺诈

而造成的巨大损失，同时减少点击欺诈对网络和商业环境的不良影响，设计一

种能够在海量点击中有效检测出欺诈点击的方法尤为重要。

本文针对广告点击欺诈检测问题，提出多种构建特征的方法，并探索一种

适用于该问题的 CAT-RFE 集成学习框架。本框架使用 CatBoost

（ categorical boosting ）

[3]

模型与递归特征消除（ RFE ， recursive feature

elimination）方法，在构建好的特征中选取多组较优的特征组合，将 CatBoost

作为基分类器，对这些特征组合的数据训练后进行 voting 集成。

本文提出的集成框架，在特征空间中探索多组较优的特征组合，同时将每

组特征组合通过基分类器进行集成。基分类器拟采用梯度提升模型，使集成框

架在点击欺诈检测中尽可能发挥出最大的优势。与现有工作不同，该框架综合

考虑特征和模型，将特征的选取融入模型中，成为框架中的一部分，结合多组

较优的特征组合，避免仅选取局部最优特征组合而导致降低检测精度。同时，

特征，实现了在模型精度基本不变的情况下，加快模型的训练和检测速度；

Taneja 等

[8]

将 RFE 方法与海灵格距离决策树（HDDT）结合，用于不平衡数

据集的检测；张欣等

[9]

使用了 Boosting-SVM 集成模型，解决了 SVM 在点击欺

诈数据集中产生的过拟合现象；有研究者使用随机森林模型，说明其检测精度

比 SVM 和逻辑回归等模型高

[10-11]

；Perera 等

[12]

使用不同的机器学习模型，构

造出 6 种集成学习方案，实验说明在点击欺诈中集成学习模型比单一模型更有

效；另外，有不少研究者使用 xgboost 和 LightGBM 等梯度提升模型

[13,14,15,16]

，取得了比一般机器学习模型更为优异的效果；Thejas 等结合级联森

林和 xgboost

[17]

，取得了比单一梯度提升模型更好的效果。

4) 蜜罐技术：广告商给发布者批量投放广告链接时，可在其中增加一些“虚

假”的广告链接，利用这种链接来判断欺诈的点击。通常真实用户不会点击“虚

假”的广告链接，点击了这种广告链接的用户极有可能是软件或程序模拟的用

户，进一步可认为该用户的所有点击均为欺诈的点击。例如，Haddadi 等

[18]

将

展示给用户的广告以一定的概率替换为“虚假”广告，以此来检测“虚假”用户。

综上所述，流量分析方法利用广告点击流量对批量的点击进行分析，虽然

流量数据获取方便且检测方法简便，但该方法使用的数据较为单一，只能涵盖

多数欺诈点击的规律，容易被不法发布者找到点击流量的规律；数据挖掘方法

提取出的欺诈规则基本上是欺诈点击的通用规则，既无法涵盖特殊欺诈点击的

特性，也容易被欺诈者规避；蜜罐技术利用“虚假”广告链接来分辨欺诈的点击，

该方法易于实现，然而不法发布者可针对真实用户的点击进行分析，辨识真实

的广告链接，从而控制程序只点击真实广告链接以逃避检测。

剩余15页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 4406
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip