【免费】LifelongAnomalyDetectionThroughUnlearning论文翻译资源-CSDN文库

异常检测

需积分: 0 152 浏览量 2024-04-13 11:55:02 上传评论收藏 582KB DOCX 举报

资源推荐

资源详情

资源评论

通过遗忘终身进行异常检测

摘要：异常检测是保证系统安全可靠的关键。在不断生成的系统数据的支持下，人们发现

深度学习既有效又灵活，它能够在没有太多领域知识的情况下提取模式。现有的异常检测

研究主要集中在一种被称为“zero-positive”的情况下，这意味着检测模型只针对正常(即负)

数据进行训练。在实际应用场景中，系统部署后可能会提供额外的人工检查的阳性数据。

我们把这种情况称为终身异常检测。然而，我们发现现有的方法并不容易采用这些新知识

来提高系统性能。

在这项工作中，我们首次探索了终身异常检测问题，并提出了新的方法来处理相应的

挑战。特别地，我们提出了一个称为 unlearning 的框架，它可以在标记假阴性(或假阳性)

时有效地纠正模型。为此，我们开发了几种新技术来解决两种挑战，即爆炸性损失和灾难

性遗忘。此外，我们抽象了一个基于生成模型的理论框架。在此框架下，我们的学习方法

可以以一种通用的方式呈现，应用于大多数基于“zero-positive”深度学习的异常检测算法，

将其转化为相应的终身异常检测解决方案。

我们使用两个最先进的“zero-positive”深度学习异常检测架构和三个现实世界的任务

来评估我们的方法。结果表明，该方法能够通过遗忘显著减少假阳性和假阴性的数量。

CCS 概念：安全和隐私->入侵/异常检测、威胁缓解

信息系统->在线分析过程

计算方法论->在线学习设置

引言：由于复杂的计算机系统存在不可避免的漏洞和不断尝试的复杂攻击，异常检测是安

全不可或缺的一步[4]。现代系统不断产生反映系统状态的系统数据，这些数据是实时异常

检测的重要数据源。

深度学习因其从海量数据中提取模式的能力而成为一种有效的方法[8,23]。例如，一

种朴素的方法是同时使用正常和异常数据训练一个监督模型，并使用训练好的模型在检测

中分配标签。更理想的方法是训练一个可以检测不可预见的异常(如零日攻击)的模型[42]。

也就是说，深度学习模型能够检测到在训练过程中不知道的异常类型。为了实现这一目标，

不需要任何异常数据进行检测的异常检测方法是首选的，这种方法被称为“zero-positive”

异常检测[23]。

现今已经提出了几个方案来处理这个问题。例如，基于 lstm 的异常检测模型[8,25]可

以在正常的时间序列数据上进行训练来进行预测，并在实际数据点偏离预测点时将其检测

为异常。另一个例子是，基于自编码器的异常检测模型[15,47]被提出用于检测对时间不敏

感的数据上的异常，即每个数据点彼此独立。

zero-positive 异常检测的一个问题是，它可能并不总是泛化。也就是说，在测试期

间观察到的异常事件，我们称之为假阴性，可以归类为正常。在实践中，管理员可以手动

检查小部分事件并提供标签。然而，基于深度学习的方法如何有效地使用这些新的标记数

据更新模型仍然是开放的。例如，在网络流量异常检测应用程序中，新工作负载的出现可

能需要模型学习新模式，并以受控的方式选择性地忘记旧模式。此外，如果系统管理员提

供了关于误报(以及误报)的反馈，则可能还需要以经济有效的方式更新模型，以更好地实

现其目标。

在本文中，我们将重点研究终身异常检测问题来填补这一空白。要实现这一目标还面

临着一些挑战。首先，到目前为止，还没有机制使基于深度学习的异常检测模型记住异常

实例。为了使模型记住一个正常的实例 x，大多数现有的方法都学习一个模型来预测 Pr(x)，

并使这个概率足够高以供考虑。

因此，为了使模型记住 x 是异常的，我们需要减小预测概率 Pr(x)。这相当于让模型

忘记 x 是一个正常实例。基于这个想法，我们开发了一种称为 unlearn 的算法，使模型忘

记假阴性实例是正常的。请注意，Cao 等人之前已经提出了“unlearning”的概念[3]，与

我们的工作不同，它侧重于遗忘训练数据集中存在的样本。

其次，简单地降低 Pr(x)的概率也可能使模型将其他正常事件预测为异常。我们把这

个问题称为爆炸损失，其中损失一项表示为- logPr(x)。当 Pr(x)接近于零时，损失可以

任意大。最大化它将导致深度学习模型变得武断，并且不能很好地服务于异常检测任务。

在学习框架下，我们开发了边界损失和学习率收缩技术来缓解这一问题。

第三，由于终身异常检测问题将以模型将随着时间不断更新的方式运行，它可能会忘

记以前观察到的示例。这个问题在深度学习文献中通常被称为灾难性遗忘[12]。这个问题

的一个简单的解决方案是用所有之前观察到的例子重新训练模型。然而，这种简单的方法

并不实用，因为随着时间的推移，数据集将不断增长，重新训练的成本很快就会变得太高。

为了解决这个问题，我们开发了一种增量学习方法来利用一个保持重要的记忆集，使模型

不会忘记重要的过去的例子。

第四，我们希望我们的方法可以通用于现有的基于深度学习的异常检测算法，这样我

们就可以利用以前的工作。我们观察到，大多数现有的方法都可以被一类称为生成模型的

机器学习算法捕获。因此，我们在一个理论框架中抽象了以前的方法。通过利用这个框架，

我们可以很容易地以一种通用的方式呈现我们的学习算法，以确保它可以应用于任意基于

深度学习的异常检测算法。

我们将我们的主要贡献总结如下：

①我们是第一个研究基于深度学习的终身学习异常检测问题的人。为此，我们提出了

一种可应用于任何基于深度学习的 zero-positive 异常检测方法的去学习框架，使其成为

一种终身异常检测解决方案。

②我们提出了新的技术来解决爆炸损失和灾难性遗忘的挑战。前者是异常检测所特有

的，而后者是一个通用的终身学习问题。我们希望我们的解决方案能够激发对这些问题的

更多研究。

③作为副产品，我们抽象了一个理论框架来应用生成模型进行异常检测，这样我们的

学习方法就可以以一种通用的方式呈现出来。我们希望这个框架能够为未来基于深度学习

的异常检测研究提供新的思路。

④我们使用三个真实的异常检测数据集来评估我们的方法，即 HDFS 日志、雅虎网络流

量和信用卡交易。我们表明，我们提出的终身学习方法可以显著减少假阳性和假阴性的数

量。例如，对于 HDFS 日志，实验结果显示，在不同的阈值下，假阳性和假阴性分别减少了

77.3%和 76.6%。

本文的其余部分组织如下。在第 2 节中，我们形式化了异常检测问题，并介绍了应用

生成模型进行异常检测的理论框架。然后，我们提出了我们的遗忘框架和关键的技术创新，

以应对第 3 节中的挑战。在第 4 节中，我们使用各种数据集和深度学习架构来评估我们提

出的方法。我们将在第 5 节讨论我们的观察结果，并在第 6 节讨论相关工作。最后，我们

在第 7 节中进行总结。

终身异常检测：在本节中，我们将首先使用实际示例解释 zero-positive 异常检测。然后

我们将形式化这个问题，并介绍最先进的基于深度学习的方法。

动机样例：实时收集的系统数据可以是连续值，如 CPU 使用率和温度，也可以是分类

值，如 SYSCALL 和函数 API 调用。每个数据点可以是一个单独的值，也可以是一个向量。

此外，系统状态和事件随时间而变化。收集到的数据点既可以作为独立实例进行分析，也

可以作为涉及时间维度的时间序列事件进行分析。例如，事件 cpu 高本身可能表示异常，

或者仅当它跟随某些事件时才是异常。

以前的工作已经广泛地探索了系统数据的异常检测，例如，在系统日志上使用 LSTM 模

型[8]来检测执行异常，在硬件性能计数器上使用自编码器模型来检测性能问题[15]。由于

很难获得异常标签，以前的工作通常通过仅对正常数据进行训练来规避这一问题，希望检

测不遵循所学正常模式的不可预见的异常。但是，也有可能训练数据是有噪声的，或者在

检测中出现了新的模式，这样当训练模型用于检测时，可能会出现假阳性或假阴性。

考虑以下场景。训练数据可能包含两个实例:ssh→program→exit→CPU-high 和

ssh→game→exit→CPU-high。在此基础上训练的 zero-positive 模型可以将 ssh→⋆ →

exit→CPU-high 学习为正常序列，其中⋆ 表示任意事件。但是，在使用此模型进行异常检

测时，可能会遇到 ssh→notepad→exit→CPU-high，进一步检测为正常。由于训练数据不

完整，异常检测模型无法识别可疑的 cpu 高活动，这可能是由于未记录攻击。另一个例子，

如果模型只对 ssh→program→exit→CPU-high 进行训练，就有可能错误地将

ssh→game→exit→CPU-high 检测为异常。

在使用训练模型进行异常检测的实际场景中，系统管理员可能会报告模型未能检测到

的假阴性和假阳性。在本文中，我们关注的是这种异常检测模型的终身学习问题，即如何

使用报告的假阴性和假阳性来增量地更新模型。

问题定义：在本节中，我们首先形式化 zero-positive 异常检测问题，并简要说明如

何使用生成机器学习模型来处理此问题。

问题定义 1（异常检测模型）：考虑一个事件序列

𝑥

𝑡

≤

𝑡

≤

𝑇)

, 使得每个实例都以 1

−ε(

𝜀

≥

是一个小的常数

)的概率从平稳分布 D 中采样。检测每个后续实例

𝑥

𝑡

(t > T)是

否从相同的分布中抽样。

在定义中，事件序列

,……

𝑇

是训练数据。分布 D 定义了一个实例是正常的(在分布中)

还是异常的。常数ε控制着异常样本在训练数据中出现的比率。当ε = 0 时，意味着训练

数据根本不包含异常。

之前关于 zero-positive 异常检测的工作[8,15,26]假设训练数据集只包含正常数据，

即 ε = 0。然而，人类标签可能偶尔会犯错误。在这项工作中，我们考虑了带有噪声数据

的异常检测问题，这意味着 ε >0 虽然很小，但是我们不知道哪些实例是不正常的或正常。

这个定义适用于大多数实际应用。

分布假设：不同的应用程序对分布 D 做出不同的假设，因此可以应用不同的机器学习

模型来学习该分布。通常，我们考虑两种类型的分布:时间不敏感的和时间敏感的。

定义 2.1：时间不敏感分布--时间不敏感分布 D 在任意时刻 t 的值是相互独立的。它

的概率质量函数由 Pr(

𝑡

)定义。

定义 2.2：时间敏感分布--时间敏感分布 D 在时刻 t 的值取决于所有过去的历史。概

率质量函数定义为 Pr(

𝑡

―

…

)。

终身学习：在这项工作中，我们考虑了异常检测的一种特殊情况，称为终身异常检测。

在问题 1 的定义中，我们认为训练集上没有提供标签。从如此嘈杂的数据中学习不可避免

地是不准确的。

然而，在实际的应用场景中，从业者可以手动检查一些可疑的示例来提供它们的标签。

在这项工作中，我们主要感兴趣的是我们能否在这种情况下显著提高准确性。

问题定义 2（终身异常检测）：考虑一个事件序列

𝑥

𝑡

≤

𝑡

≤

𝑇)

, 使得每个实例都以 1

−ε(

𝜀

≥

是一个小的常数

)的概率从平稳分布 D 中采样。另外，我们有 n 对集合

（

𝑖

𝑙

𝑖

）

其中

(

≤

𝑡

≤

𝑇

)

𝑙

𝑖

∈

{

―

1,1}

。当

𝑡

𝑖

是来自分布 D 的采样时，

𝑙

𝑖

是负的；否则，

𝑙

𝑖

是正的。检

剩余17页未读，继续阅读

评论收藏

内容反馈

有名氏+10086

粉丝: 7
资源: 1

Lifelong Anomaly Detection Through Unlearning 论文翻译

最新资源

Lifelong Anomaly Detection Through Unlearning 论文翻译

Lifelong Disk Failure Prediction via GAN-based Anomaly Detection.pdf

通过多策略再平衡实现终身意图检测_Lifelong Intent Detection via Multi-Strategy Re

04-图片篇.pptx

汪子璇（四）3.20.pptx

第一、二篇论文.pptx

AN ALTERNATIVE APPROACH TO EFFICIENT ENSEMBLE AND LIFELONG LEARNING

Lifelong 数据集采集的标定代码上传.zip

awesome-lifelong-continual-learning:终身持续机器学习领域的论文，博客，数据集和软件列表

Encoder-Based-Lifelong-learning

100篇深度学习论文集

深度学习论文集二

Hyper-LifelongGAN Scalable Lifelong Learning for Image Conditi

Lifelong Learning.pdf

终身师生网络学习_Lifelong Teacher-Student Network Learning

终身孪生对抗网络_Lifelong Twin Generative Adversarial Networks

KinderGarten（备用资料）

变分自动编码器的终身混合_Lifelong Mixture of Variational Autoencoders

JDK 1.8 64位.rar

SoftCnKiller2.54.zip（因为要下载码，弃用不更新了）

编译好的64位pycdc.exe(支持python3.10和python3.11)

工程伦理的期末考试题库

Matlab 2024a百度云盘资源下载，仅用于学习

ISO26262标准(中文版)下载.pdf

NFC-Reader-Tool-电脑版.zip

Open3D算法测试数据.rar

常用经典斯坦福点云数据

化作尘智能门锁项目视频教程笔记.pdf

最新资源