没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
0 引言
广告是互联网最主要的商业模式,已经逐步形成互联网广告产业。近年来,
整个产业的规模在持续快速增长。互联网用户打开网页或者移动手机应用都能
看到 各式 各样 的广 告。 广告 中最 常见 的一 种付 费模 式是 点击 付费 (pay per
click),即由广告商(advertiser)提供广告链接,发布者(publisher)可以
在自己的网站或应用中发布该广告链接,以此来赚取广告商的点击费用
[1]
。点
击付费商业模式简单,只通过点击就能产生收入,且广告点击欺诈的惩罚风险
相对较低,这让许多不法发布者有了可乘之机
[2]
。
点击欺诈是近年来最常见的网络犯罪手段之一,互联网广告行业每年都会
因为点击诈骗而遭受巨大的损失。为了减少广告商在点击付费模式中点击欺诈
而造成的巨大损失,同时减少点击欺诈对网络和商业环境的不良影响,设计一
种能够在海量点击中有效检测出欺诈点击的方法尤为重要。
本文针对广告点击欺诈检测问题,提出多种构建特征的方法,并探索一种
适 用 于 该 问 题 的 CAT-RFE 集 成 学 习 框 架 。 本 框 架 使 用 CatBoost
( categorical boosting )
[3]
模 型 与 递 归 特 征 消 除 ( RFE , recursive feature
elimination)方法,在构建好的特征中选取多组较优的特征组合,将 CatBoost
作为基分类器,对这些特征组合的数据训练后进行 voting 集成。
本文提出的集成框架,在特征空间中探索多组较优的特征组合,同时将每
组特征组合通过基分类器进行集成。基分类器拟采用梯度提升模型,使集成框
架在点击欺诈检测中尽可能发挥出最大的优势。与现有工作不同,该框架综合
考虑特征和模型,将特征的选取融入模型中,成为框架中的一部分,结合多组
较优的特征组合,避免仅选取局部最优特征组合而导致降低检测精度。同时,
该框架结合当前点击欺诈检测方面的最优的机器学习模型,即对梯度提升模型
进行集成。为了避免多类基分类器性能的参差不齐而导致无法提升集成模型的
检测能力,该框架对多个相同的梯度提升模型进行集成,以确保集成模型的稳
定性。
在实际大规模互联网广告点击数据集上的对比实验显示,本文框架优于基
线模型、CatBoost 模型、CatBoost 与 RFE 组合的模型以及其他经典机器学习
模型,证明了所提框架具备良好的竞争力。
1 相关工作
点击欺诈作为互联网广告面临的最严重的威胁之一,如何有效和精准地在
海量的广告点击中检测出欺诈点击成为学术界和工业界广泛关注的问题。结合
Gohil 等
[2]
对点击欺诈检测研究的观点,将相关检测方法分为如下 4 类。
1) 流量分析:该方法对批量的广告点击流量进行分析,即根据每个用户
的点击流量或每个时间段的点击流量,找出不同于正常点击流量的点击数据。
例如,Nagaraja 等
[4]
针对时间序列点击流量对点击欺诈行为进行检测。
2) 数据挖掘:该方法针对广告点击数据挖掘出某种欺诈规则,并根据该
规则识别未知点击中的欺诈数据。例如,Gabryel
[5]
使用其改进的 TF-IDF 词频
统计方法,对点击产生的数据构造出 TF-IDF 矩阵,并进一步使用 K 近邻分类
器检测欺诈的点击。
3) 机器学习:根据广告点击产生的数据构建出相应的特征,再使用机器
学习或深度学习分类器通过这些特征识别欺诈点击。例如,Mouawi 等
[6]
利用
有些广告发布者会诱导用户点击感兴趣的广告链接的特点,构造出相应的特征
训练机器学习分类算法;董亚楠等
[7]
采用“Fisher 分”算法选取重要的用户行为
特征,实现了在模型精度基本不变的情况下,加快模型的训练和检测速度;
Taneja 等
[8]
将 RFE 方法与海灵格距离决策树(HDDT)结合,用于不平衡数
据集的检测;张欣等
[9]
使用了 Boosting-SVM 集成模型,解决了 SVM 在点击欺
诈数据集中产生的过拟合现象;有研究者使用随机森林模型,说明其检测精度
比 SVM 和逻辑回归等模型高
[10-11]
;Perera 等
[12]
使用不同的机器学习模型,构
造出 6 种集成学习方案,实验说明在点击欺诈中集成学习模型比单一模型更有
效 ; 另 外 , 有 不 少 研 究 者 使 用 xgboost 和 LightGBM 等 梯 度 提 升 模 型
[13,14,15,16]
,取得了比一般机器学习模型更为优异的效果;Thejas 等结合级联森
林和 xgboost
[17]
,取得了比单一梯度提升模型更好的效果。
4) 蜜罐技术:广告商给发布者批量投放广告链接时,可在其中增加一些“虚
假”的广告链接,利用这种链接来判断欺诈的点击。通常真实用户不会点击“虚
假”的广告链接,点击了这种广告链接的用户极有可能是软件或程序模拟的用
户,进一步可认为该用户的所有点击均为欺诈的点击。例如,Haddadi 等
[18]
将
展示给用户的广告以一定的概率替换为“虚假”广告,以此来检测“虚假”用户。
综上所述,流量分析方法利用广告点击流量对批量的点击进行分析,虽然
流量数据获取方便且检测方法简便,但该方法使用的数据较为单一,只能涵盖
多数欺诈点击的规律,容易被不法发布者找到点击流量的规律;数据挖掘方法
提取出的欺诈规则基本上是欺诈点击的通用规则,既无法涵盖特殊欺诈点击的
特性,也容易被欺诈者规避;蜜罐技术利用“虚假”广告链接来分辨欺诈的点击,
该方法易于实现,然而不法发布者可针对真实用户的点击进行分析,辨识真实
的广告链接,从而控制程序只点击真实广告链接以逃避检测。
相较于流量分析、数据挖掘和蜜罐技术 3 类检测方法,机器学习方法在点
击欺诈方面具有更好的检测能力、可适应性和鲁棒性
[2]
。机器学习方法不单单
根据一种或少量几种点击数据来辨认欺诈的点击,而是由多种数据构建而成的
特征数据,这些特征数据由于种类较多,易于涵盖更多的欺诈点击特性。由于
机器学习模型运用的点击数据种类较多,不法发布者很难找到某些规律来躲避
点击欺诈检测。机器学习对于复杂数据的处理能力比其他方法相对较优,因此
检测能力比其他方法更好。
根据以上综述的机器学习方法的文献可知,有的研究者专注于点击特征的
构建和选取,表明了所提特征的有效性,同时证明了特征的提取或选取是至关
重要的一步;有的研究者则专注于机器学习模型的选取或构造,研究结果证明
了集成和梯度提升模型的检测能力优于普通机器学习模型。虽然上述提到的研
究工作在提高点击欺诈检测能力的方面取得一定的效果,但每种方法都缺少将
特征与模型结合的考虑,使模型很难进一步提升检测精度。此外,虽然在该问
题下已存在梯度提升模型的集成模型
[17]
,但现有的模型是集成了多种不同的梯
度提升模型,这容易导致各种梯度提升模型之间相互制约,从而达不到更好的
检测效果。因此,探索一种特征选取与检测模型结合的方法,尽可能提高点击
欺诈检测精度,显得必要且有意义。
2 提出的集成架构
高精度点击欺诈检测,需要综合考虑特征或者模型两个层面。本文提出了
多类点击欺诈特征的提取思路,并在此基础上提出了一个集成的点击欺诈检测
框架。本节描述特征构建细节和集成框架构建步骤。
2.1 特征 构建
剩余15页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 4406
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 一个用于转换RINEX2.10 & 2,11格式至RINEX3.04版本的图形化软件
- 基于MATLAB车牌识别代码【含界面GUI】(1).zip
- tvm实现layergroup
- MATLAB深度学习工具箱:构建、训练和部署模型的全面指南
- .archivetempSunny.dll
- 第13届蓝桥杯单片机国赛满分程序.zip
- OCR技术及其应用ppt课件-概念的提出始于1929年、国内的研究从70年代才开始,目前已经达到国际先进水平
- MATLAB工具箱在HDL代码生成中的应用与实践
- ARP协议-arp协议-ARP协议的初步认识、ARP 协议的介绍、常见的ARP攻击方法、防ARP攻击的方法
- cb1642647b0b6577a2e22f9a1d894658.JPG
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功