没有合适的资源?快使用搜索试试~ 我知道了~
基于混合高斯变分自编码网络的异常检测算法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 93 浏览量
2022-06-02
10:59:45
上传
评论
收藏 152KB DOCX 举报
温馨提示
试读
12页
基于混合高斯变分自编码网络的异常检测算法.docx
资源推荐
资源详情
资源评论
1 引言
异常检测是指在数据中检测出不符合期望行为的数据。异常数据在统计领
域也被称为偏差值或离群值,是指远离大量正常数据点的数据
。异常产生的原
因有很多,比如数据本身的错误,或人为因素,而这些异常往往蕴含着一些隐
秘的行为信息。在金融尤其是互联网金融领域
,高效准确的异常检测系统能够
识别并预警用户潜在的异常行为,控制金融风险,减少金融欺诈行为导致的经
济损失。因此,如何从海量数据中监控并检测异常数据是一个亟待解决的重要
问题。此外,异常检测还广泛应用于网络入侵检测
、医疗图像辅助病症判断
、工业设备异常监控
、智能安防监控
等领域,为各类系统的正常运转提供重
要支撑。
2 相关工作
(,局部异常因子)算法
是一种经典的基于密度估
计的异常检测算法,其将数据点的可达距离、局部可达密度与其邻域数据点进
行比较,并计算局部异常因子评估数据的异常程度,判断数据是否属于异常。
基于密度的异常检测算法适合用于数据分布不均的情况,算法复杂度较高。
等
提出了孤立森林(,)算法,其采用集成学习的方式,利
用二叉搜索树对样本进行孤立计算,并以此衡量样本的异常程度,异常点往往
因为具有与正常点分离的特性而被更快地孤立,但是该方法难以检测局部异常
的情况。
近年来,随着数据维度的提高,深度神经网络已经显示出其优于传统机器
学习的优点。 等
提出了使用变分自编码器进行异常检测,并提出使用重构
概率衡量分布差异程度,该方法优于使用自动编码器的方法。杜辰飞等
提出了
一个基于稀疏自编码器的异常检测模型,输入正常数据对稀疏自编码器进行训
练和优化,然后基于测试数据的重构误差检测数据中的异常情况。 等
提出
了基于胶囊网络的深度异常检测算法,其使用胶囊网络搭建编码器和分类器,
并基于预测概率和重建误差对图片数据进行异常检测。丁建立等
采用自然语言
处理常用的 模型对数据进行建模,利用数据的重构误差对数据进行异
常检测。
目前的异常检测算法大多依赖于重建误差或重建概率等启发式方法进行异
常判断,没有利用数据的特征表示进行异常判断。因此,本文以混合高斯先验
建立自编码器,以得到数据更合理的特征分布,然后以自编码器构建深度支持
向量网络压缩特征空间,通过寻找最小超球体分离异常数据和正常数据,从而
实现对异常数据的检测。该方法摆脱了目前主流的基于重构误差或重建概率的
异常检测方法,基于数据特征的优化进行异常检测。
3 异常检测模型
混合高斯变分自编码器
变分自编码器
通过将深度学习与概率统计相结合,能够学习到数据的特征
分布。标准的变分自编码器的优化目标如式()所示。
L(θ,ϕ;x)=−DKL[qϕ(z|x)||pθ(z)]+!"#$%&'()*+$!,-&'--."!,'/
Eqϕ(z∣∣x)[logpθ(x∣∣z)] (1)0$!,-&'1."!&-,' !'
模型通过最小化近似后验分布和假设先验分布之间的 +散度,使优化目标
证据下限(02)最大化。然而,标准变分自编码器中先验采用简单的标准正
态分布,可能会导致后验塌陷问题
,并且容易忽略一些潜在的变量约束,导致
无法较好地逼近不同类别数据的分布,影响编码和解码的效果。为此本文引入
混合高斯分布作为变分自编码器的先验分布,如式()所示。
pθ(z)=∑i=1MπiN(z;μ˜(i),σ˜(i)2I)
(2)."!,'(3(456!,%78!'#98!'' !'
其 中 , ∑ i=1Mπi=13(45( , 5
表 示 第 个 高 斯 分 量 的 混 合 系 数 ,
μ˜(i)78!'和 σ˜(i) 298!': 代表第 个高斯分量对应的均值和方差。对应的近似后
验 qϕ(z|x)$!,-&'如式()所示。其中, ∑i=1Mωi=13(4;(。
qϕ(z∣∣∣∣x)=∑i=1MωiN(z;μ(i),σ(i) 2I) (3)$!,-
&'(3(4;6!,%7!'#9!':' !'
此时,式()中的第一项为混合高斯分布的 + 散度。式()、式()
的高斯分量个数相同,都为 4。一般地,先验分布的混合高斯个数应不同于后
验分布的混合高斯个数,这样先验和后验中的高斯分量之间就必须进行逐一匹
配,但是会出现后验中多个高斯分量匹配先验分布中某个高斯分量的情况,而
后验分布中的这些高斯分量的均值和方差都是由网络从各批训练数据中取得的,
训练数据的切分会影响均值和方差的估计,同时高斯分量个数的选择也会影响
匹配的准确性,导致求解问题复杂化。为简化问题求解,本文采用了先验和后
验由相同个数的高斯分量组成。但是到目前为止,尚未有一个高效的算法能够
求出与混合高斯分布相关的 + 散度的解析解。为了解决这个问题, <=>
提出了混合高斯分布之间的 +散度的近似求解算法,该算法使用变分推断求解
出所需要计算的 +散度的上界。因此可以将最小化 +散度的目标转换为最小
化其近似上界。
根据 <=> 提出的近似算法,可以得到式()中的第一项 + 散度的表
达式,如式()所示。
−DKL[∑i=1MωiN(z;μ(i),σ(i) 2I)∣∣∣∣∣∣∣∣∑i=1MπiN(z;μ˜(i),σ˜(i)
2I)]≥)*+3(4;6!,%7!'#9!':'--3(456!,%78!'#98!':'?
−∑i=1Mωi(logωiπi+∑j=1J12(logσ˜(i) 2jσ(i) 2j+(μ(i)j−μ˜(i)j) 2+σ(i)
2jσ˜(i) 2j−1)) (4))3(4;!1;5/3@(A!198@!':9@!':/!7@!')78@!'':
/9@!':98@!':)'' !'
其 中 , μ˜(i)j78@!' 表 示 μ˜(i)78!' 的 第 @ 个 元 素 , σ˜(i) 2j98@!':B表 示 σ˜(i)
298!': 的第 @ 个元素,A 为 μ˜(i)78!'和 σ˜(i) 298!': 的维数。
式()中的第二项为重构项,计算方式与标准 C0 相似,得到重构项计
算式如式()所示, 是采样的数量,zl, 的下标 表示第 次采样。
Eqϕ(z∣∣x)[logpθ(x∣∣∣∣z)]≃1L∑l=1Llogpθ(x|zl) (5)0$!,-&'
1."!&-,'≃3(1."!&-,' !'
结合式()和式(),得到先验与后验均是混合高斯分布的变分下界表
达式,如式()所示。
Lψ(θ,ϕ;x)≥D!"#$%&'?
−∑i=1Mωi⎛⎝⎜logωiπi+∑j=1J12(logσ˜(i) 2jσ(i) 2j+(μ(i)j−μ˜(i)j)
2+σ(i) 2jσ˜(i)2j−1)⎞⎠⎟+)3(4;!1;5/3@(A!198@!':9@!':/!7@!'
)78@!'':/9@!':98@!')''/
1L∑l=1Llogpθ(x|zl) (6)3(1."!&-,' !'
深度支持向量网络
支持向量数据描述(..EFF. ,GC**)是 H& 等
提出的一种在统计学理论基础上发展的单值分类方法。GC**的目标是在特
征空间 FkI 中找到中心 c∈Fk∈I、半径 JK 的超球体,该超球体将大多数
目标类数据包围,以此分离目标类数据与所有非目标类数据。
假设输入数据为 x(i)&!',(#L#6,GC**在特征空间上寻找最优超球体
的优化目标被定义为式()。
minR,ξ R2+1νn∑iξ(i)MMMMMMMMMMMMMMMMMNJ#OMMMMMMMMMMMMMMMJ/P3O!'
s.t. ∥∥ϕ(x(i))−c∥∥2≤R2+ξ(i), i=1,2,⋯,N (7) MMMMMMQ$!&!''
)QRJ/O!'#MMMMMMMMMMM(##⋯#6 !'
剩余11页未读,继续阅读
资源评论
- Allenzgx2023-11-11资源很赞,希望多一些这类资源。
罗伯特之技术屋
- 粉丝: 3683
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功