基于混合高斯变分自编码网络的异常检测算法.docx资源-CSDN文库

版权申诉

网络

5星 · 超过95%的资源 93 浏览量 2022-06-02 10:59:45 上传评论收藏 152KB DOCX 举报

资源推荐

资源详情

资源评论

1 引言

异常检测是指在数据中检测出不符合期望行为的数据。异常数据在统计领

域也被称为偏差值或离群值，是指远离大量正常数据点的数据







。异常产生的原

因有很多，比如数据本身的错误，或人为因素，而这些异常往往蕴含着一些隐

秘的行为信息。在金融尤其是互联网金融领域







，高效准确的异常检测系统能够

识别并预警用户潜在的异常行为，控制金融风险，减少金融欺诈行为导致的经

济损失。因此，如何从海量数据中监控并检测异常数据是一个亟待解决的重要

问题。此外，异常检测还广泛应用于网络入侵检测







、医疗图像辅助病症判断







、工业设备异常监控







、智能安防监控







等领域，为各类系统的正常运转提供重

要支撑。

2 相关工作

（，局部异常因子）算法







是一种经典的基于密度估

计的异常检测算法，其将数据点的可达距离、局部可达密度与其邻域数据点进

行比较，并计算局部异常因子评估数据的异常程度，判断数据是否属于异常。

基于密度的异常检测算法适合用于数据分布不均的情况，算法复杂度较高。 

等







提出了孤立森林（，）算法，其采用集成学习的方式，利

用二叉搜索树对样本进行孤立计算，并以此衡量样本的异常程度，异常点往往

因为具有与正常点分离的特性而被更快地孤立，但是该方法难以检测局部异常

的情况。

近年来，随着数据维度的提高，深度神经网络已经显示出其优于传统机器

学习的优点。 等







提出了使用变分自编码器进行异常检测，并提出使用重构

概率衡量分布差异程度，该方法优于使用自动编码器的方法。杜辰飞等







提出了

一个基于稀疏自编码器的异常检测模型，输入正常数据对稀疏自编码器进行训

练和优化，然后基于测试数据的重构误差检测数据中的异常情况。 等







提出

了基于胶囊网络的深度异常检测算法，其使用胶囊网络搭建编码器和分类器，

并基于预测概率和重建误差对图片数据进行异常检测。丁建立等







采用自然语言

处理常用的 模型对数据进行建模，利用数据的重构误差对数据进行异

常检测。

目前的异常检测算法大多依赖于重建误差或重建概率等启发式方法进行异

常判断，没有利用数据的特征表示进行异常判断。因此，本文以混合高斯先验

建立自编码器，以得到数据更合理的特征分布，然后以自编码器构建深度支持

向量网络压缩特征空间，通过寻找最小超球体分离异常数据和正常数据，从而

实现对异常数据的检测。该方法摆脱了目前主流的基于重构误差或重建概率的

异常检测方法，基于数据特征的优化进行异常检测。

3 异常检测模型

 混合高斯变分自编码器

变分自编码器







通过将深度学习与概率统计相结合，能够学习到数据的特征

分布。标准的变分自编码器的优化目标如式（）所示。

L(θ,ϕ;x)=−DKL[qϕ(z|x)||pθ(z)]+!"#$%&'()*+$!,-&'--."!,'/

Eqϕ(z∣∣x)[logpθ(x∣∣z)]　　　　(1)0$!,-&'1."!&-,'　　　　!'

模型通过最小化近似后验分布和假设先验分布之间的 +散度，使优化目标

证据下限（02）最大化。然而，标准变分自编码器中先验采用简单的标准正

态分布，可能会导致后验塌陷问题







，并且容易忽略一些潜在的变量约束，导致

无法较好地逼近不同类别数据的分布，影响编码和解码的效果。为此本文引入

混合高斯分布作为变分自编码器的先验分布，如式（）所示。

pθ(z)=∑i=1MπiN(z;μ˜(i),σ˜(i)2I)

(2)."!,'(3(456!,%78!'#98!''　　　　!'

其中， ∑ i=1Mπi=13(45( ， 5



表示第  个高斯分量的混合系数，

μ˜(i)78!'和 σ˜(i) 298!': 代表第  个高斯分量对应的均值和方差。对应的近似后

验 qϕ(z|x)$!,-&'如式（）所示。其中， ∑i=1Mωi=13(4;(。

qϕ(z∣∣∣∣x)=∑i=1MωiN(z;μ(i),σ(i) 2I)　　　　(3)$!,-

&'(3(4;6!,%7!'#9!':'　　　　!'

此时，式（）中的第一项为混合高斯分布的 + 散度。式（）、式（）

的高斯分量个数相同，都为 4。一般地，先验分布的混合高斯个数应不同于后

验分布的混合高斯个数，这样先验和后验中的高斯分量之间就必须进行逐一匹

配，但是会出现后验中多个高斯分量匹配先验分布中某个高斯分量的情况，而

后验分布中的这些高斯分量的均值和方差都是由网络从各批训练数据中取得的，

训练数据的切分会影响均值和方差的估计，同时高斯分量个数的选择也会影响

匹配的准确性，导致求解问题复杂化。为简化问题求解，本文采用了先验和后

验由相同个数的高斯分量组成。但是到目前为止，尚未有一个高效的算法能够

求出与混合高斯分布相关的 + 散度的解析解。为了解决这个问题， <=>







提出了混合高斯分布之间的 +散度的近似求解算法，该算法使用变分推断求解

出所需要计算的 +散度的上界。因此可以将最小化 +散度的目标转换为最小

化其近似上界。

根据 <=> 提出的近似算法，可以得到式（）中的第一项 + 散度的表

达式，如式（）所示。

−DKL[∑i=1MωiN(z;μ(i),σ(i) 2I)∣∣∣∣∣∣∣∣∑i=1MπiN(z;μ˜(i),σ˜(i)

2I)]≥)*+3(4;6!,%7!'#9!':'--3(456!,%78!'#98!':'?

−∑i=1Mωi(logωiπi+∑j=1J12(logσ˜(i) 2jσ(i) 2j+(μ(i)j−μ˜(i)j) 2+σ(i)

2jσ˜(i) 2j−1))　　　(4))3(4;!1;5/3@(A!198@!':9@!':/!7@!')78@!'':

/9@!':98@!':)''　　　!'

其中， μ˜(i)j78@!' 表示 μ˜(i)78!' 的第 @ 个元素， σ˜(i) 2j98@!':B表示 σ˜(i)

298!': 的第 @ 个元素，A 为 μ˜(i)78!'和 σ˜(i) 298!': 的维数。

式（）中的第二项为重构项，计算方式与标准 C0 相似，得到重构项计

算式如式（）所示，  是采样的数量，zl, 的下标  表示第  次采样。

Eqϕ(z∣∣x)[logpθ(x∣∣∣∣z)]≃1L∑l=1Llogpθ(x|zl)　　　　(5)0$!,-&'

1."!&-,'≃3(1."!&-,'　　　　!'

结合式（）和式（），得到先验与后验均是混合高斯分布的变分下界表

达式，如式（）所示。

Lψ(θ,ϕ;x)≥D!"#$%&'?

−∑i=1Mωi⎛⎝⎜logωiπi+∑j=1J12(logσ˜(i) 2jσ(i) 2j+(μ(i)j−μ˜(i)j)

2+σ(i) 2jσ˜(i)2j−1)⎞⎠⎟+)3(4;!1;5/3@(A!198@!':9@!':/!7@!'

)78@!'':/9@!':98@!')''/

1L∑l=1Llogpθ(x|zl)　　　　(6)3(1."!&-,'　　　　!'

 深度支持向量网络

支持向量数据描述（..EFF. ，GC**）是 H& 等







提出的一种在统计学理论基础上发展的单值分类方法。GC**的目标是在特

征空间 FkI 中找到中心 c∈Fk∈I、半径 JK 的超球体，该超球体将大多数

目标类数据包围，以此分离目标类数据与所有非目标类数据。

假设输入数据为 x(i)&!'，(#L#6，GC**在特征空间上寻找最优超球体

的优化目标被定义为式（）。

minR,ξ R2+1νn∑iξ(i)MMMMMMMMMMMMMMMMMNJ#OMMMMMMMMMMMMMMMJ/P3O!'

s.t. ∥∥ϕ(x(i))−c∥∥2≤R2+ξ(i), i=1,2,⋯,N　　　　(7)  MMMMMMQ$!&!''

)QRJ/O!'#MMMMMMMMMMM(##⋯#6　　　　!'

剩余11页未读，继续阅读

评论收藏

内容反馈

版权申诉

Allenzgx

2023-11-11

资源很赞，希望多一些这类资源。

罗伯特之技术屋

粉丝: 3683
资源: 1万+

基于混合高斯变分自编码网络的异常检测算法.docx

基于高斯建模和YoLo V3目标检测的遗留物检测方法.docx

基于深度自编码-高斯混合模型的视频异常检测方法.docx

融合深度特征的电磁频谱异常检测算法.docx

基于CGAN-LSTM的无监督网络异常流量检测算法.docx

基于混合马尔科夫树模型的ICS异常检测算法.docx

基于高斯混合聚类的电力工控系统异常检测研究.docx

高斯混合生成模型检测健康数据异常.docx

基于高斯混合模型的运动目标检测算法研究

基于高斯混合背景建模的前景检测算法

基于变分自编码与局部异常因子的无监督异常检测

基于关联规则和协同过滤的混合图书推荐算法.docx

课程设计-磁盘调度算法.docx

一种基于改进遗传算法的神经网络优化算法研究.docx

基于改进混合高斯模型的井下目标检测算法-论文

基于变参数混合高斯模型的动态目标检测算法 (2014年)

基于高斯混合模型的多车道车流量检测算法

基于高斯混合模型的非平衡数据对称翻转算法.docx

基于高斯混合模型和canny算法的运动目标检测 (2011年)

一种基于项目的混合显性隐性反馈的协同过滤推荐算法.docx

(机器学习作业)基于稀疏表示的数据缩减算法.docx

基于无线传感器网络的采样算法.docx

图像处理之霍夫变换圆检测算法.docx

最小二乘的圆及椭圆检测算法.docx

基于改进混合高斯模型的交通流背景检测算法 (2012年)

基于三维高斯混合码本模型的运动目标检测算法 (2012年)

基于混合高斯模型的运动目标检测算法 (2015年)

基于高斯滤波器的尺度相乘边缘检测算法.docx

基于高斯混合模型的红外目标检测算法研究.zip_红外图像_红外目标_红外目标检测_高斯混合 图像_高斯混合模型；图像处理

最新资源

基于高斯混合模型的红外目标检测算法研究.zip_红外图像_红外目标_红外目标检测_高斯混合图像_高斯混合模型；图像处理