基于高斯混合模型的增量聚类方法识别恶意软件家族资源-CSDN文库

189 浏览量 2021-01-14 01:27:51 上传评论收藏 1.23MB PDF 举报

资源推荐

资源详情

资源评论

2019 年 6 月 Journal on Communications June 2019

2019135-1

第 40 卷第 6 期通信学报 Vol.40

No.6

基于高斯混合模型的增量聚类方法识别恶意软件家族

胡建伟

，车欣

，周漫

，崔艳鹏

（1. 西安电子科技大学网络与信息安全学院，陕西西安 710071；2. 华中科技大学网络空间安全学院，湖北武汉 430074）

摘要：针对属于同一个家族的恶意软件的行为特征具有逻辑相似性这一特点，从行为检测的角度通过追踪 API

函数调用的逻辑规则来提取恶意软件的特征，并利用静态分析与动态分析相结合的方法来分析恶意行为特征。此

外，依据恶意软件家族的目的性、继承性与多样性，构建了恶意软件家族的传递闭包关系，并改进了基于高斯混

合模型的增量聚类方法来识别恶意软件家族。实验证明，所提方法不仅能节省恶意软件检测的存储空间，还能显

著提高检测的准确率与识别率。

关键词：恶意软件家族；高斯混合模型；增量聚类；API 函数调用；逻辑规则

中图分类号：TP393

文献标识码：A

doi: 10.11959/j.issn.1000−436x.2019135

Incremental clustering method based on Gaussian

mixture model to identify malware family

HU Jianwei

, CHE Xin

, ZHOU Man

, CUI Yanpeng

1. School of Network and Information Security, Xidian University, Xi’an 710071, China

2. Institute of Cyberspace Security, Huazhong University of Science and Technology, Wuhan 430074, China

Abstract: Aiming at the logical similarity of the behavioral characteristics of malware belonging to the same family, the

characteristics of malware were extracted by tracking the logic rules of API function call from the perspective of behavior

detection, and the static analysis and dynamic analysis methods were combined to analyze malicious behavior character-

istics. In addition, according to the purpose, inheritance and diversity of the malware family, the transitive closure rela-

tionship of the malware family was constructed, and then the incremental clustering method based on Gaussian mixture

model was improved to identify the malware family. Experiments show that the proposed method can not only save the

storage space of malware detection, but also significantly improve the detection accuracy and recognition efficiency.

Key words: malware family, Gaussian mixture model, incremental clustering, API function call, logic rule

1 引言

近年来，利用恶意软件进行网络攻击的行为越

来越多

[1]

。恶意软件利用欺骗技术可以在发动攻击

的同时逃避反病毒检测，具有多态性、隐蔽性、易

感染性等特性，严重影响网络数据或程序的安全

性、使用性与整合性，给互联网和用户带来巨大威

胁，造成严重的损失，因此，恶意软件检测技术已

经成为目前信息安全人员的研究热点之一。

然而，当前的恶意软件检测技术存在高误报率

和高漏报率的不足

[2]

，难以检测出采用了欺骗技术

的恶意软件。值得注意的是，目前流行的恶意软件

都具有很强的目的性，恶意代码编写者依据已有的

恶意软件不断开发出行为目的相似但代码结构又

不完全相同的恶意软件，从而形成恶意软件家族。

据研究结果证实

[3]

，超过 98%的新恶意软件样本实

收稿日期：2018−12−07；修回日期：2019−05−21

通信作者：周漫，zhou_man1125@hust.edu.cn

基金项目：国家自然科学基金资助项目（No.61272033）

Foundation Item: The National Natural Science Foundation of China (No.61272033)

第 6 期胡建伟等：基于高斯混合模型的增量聚类方法识别恶意软件家族 ·149·

际上是来自现有恶意软件系列的“衍生物”，新的

恶意软件继承了原始恶意软件的部分功能。为了躲

避检测并快速地部署恶意软件，黑客通常不会重新

开发新的恶意软件，而是改进恶意软件现有的行为

逻辑或者在现有的恶意软件中添加新的恶意行为

逻辑，即新的恶意软件具有继承性与多态性。本文

将具有相似行为逻辑或者相同行为目的的恶意软

件集合称为恶意软件家族。

为了提高恶意软件检测的准确率与检测效率，

本文提出了基于高斯混合模型（GMM, Gaussian

mixture model）的增量聚类方法来识别恶意软件家

族。本文的主要工作如下。

1) 依据属于同一个家族的恶意软件的行为特

征具有逻辑相似性这一特点，本文从行为检测的角

度分析并识别恶意软件家族。

2) 为了构建恶意行为特征的分析框架，本文利

用静态分析与动态分析相结合的方法来提取 API 函

数调用的抽象特征，通过分析 API 函数调用的参数

依赖关系来构建恶意软件行为逻辑图。

3) 为了找到拥有整个软件家族恶意行为特征

的恶意软件群 U

与拥有软件家族成员共有的恶意

行为特征的恶意软件群 C

，本文依据恶意软件家

族行为的继承性与多样性，为特定目的的恶意软件

家族构建 4 个行为传递闭包，并建立特征行为与恶

意软件的一对一映射关系。

4) 针对传统聚类方法不能利用上一次聚类结

果，从而导致耗时、资源浪费等问题，本文采用基

于高斯混合模型的增量聚类方法来识别恶意软件

家族，创建并动态调整与恶意软件家族的进化史相

一致的高斯混合模型树，并引入增量学习，同时进

行恶意软件家族的识别与恶意样本的聚类。

2 研究背景和相关工作

随着当前恶意软件的欺骗技术越来越成熟，以

及各类病毒数量的急剧增加，导致传统的恶意软件

检测技术不再有效。因此，出现了各种基于行为的

恶意软件检测技术。Pektas 等

[4]

通过 API 调用序列

挖掘和搜索 n-gram 从而收集代表恶意软件行为特

征的集合。针对目前恶意软件识别率下降的现状，

Han 等

[5]

指出造成这种困境的原因是越来越多的目

的性恶意软件攻击已经出现，与传统恶意软件几乎

没有共同特征。Han 等基于可判定理论，证明了任

何软件执行的任务都是递归的和可确定的，并通过

建立从软件到任务的多对一的映射，证明了包括恶

意软件在内的各类软件也是递归的，并且可以由相

应的任务来确定。

为了提高检测恶意软件的准确率，Kolosnjaji

等

[6]

提出首先在沙箱中执行恶意软件样本以收集系

统调用，然后使用深度神经网络对恶意软件的系统

调用序列进行建模以用于恶意软件分类。Cho 等

[7]

利用动态行为分析工具将 API 序列提取为恶意软件

行为报告，然后使用 Malheur 进行聚类和分类分析。

近年来，基于机器学习和数据挖掘算法的恶意

软件行为特征的分析方法逐渐受到研究人员的重

视。Santos 等

[8]

提出使用可执行文件的操作码序列

频率来检测和分类恶意软件，通过这种方式来训练

机器学习算法从而检测未知的恶意软件变种。Arp

等

[9]

将针对 API 函数的静态分析与机器学习算法相

结合，以检测恶意软件。他们在向量空间中嵌入了

特征，从向量空间中发现了恶意软件模型，并使用

这些模型构建了机器学习检测系统。

传统的聚类方法主要是利用批处理模型来发

现固定特征数据库的数据集群，但是目前出现了越

来越多的动态数据集，数据点以流形方式输入。在

这种情况下，增量聚类可以有效地处理这样的数据

集

[10]

。当不断输入数据点时，增量聚类逐步更新聚

类结果，使当前的所有数据存在一个最新的聚类。

为了对流数据进行数据聚类，Wan 等

[11]

提出了一种

基于高斯混合模型的新型增量聚类方法，称为

ICGT（incremental clustering of GMM tree）。ICGT

创建并动态调整与数据流顺序一致的 GMM 树，树

中的每个叶子节点对应于密集高斯分布，每个非叶

子节点对应于 GMM。为了更新 GMM 树以插入新

输入的数据点，Wan 等引入了节点连接和连接子集

的定义，并提出了树更新算法，实验结果证实所提

方法是有效的。

3 恶意软件家族识别

基于软件家族恶意行为的依赖性与继承性

[12]

，

人们能为每个恶意软件家族建立一个特征库，并挑

选出具有代表性的恶意软件集合。当出现未知的恶

意软件时，人们可以提取它的特征，并与最具代表

性的恶意软件集合的特征进行比对，如果具有该家

族的恶意签名或特征，则此未知的恶意软件属于该

恶意软件家族；否则，需要分析软件的行为特征，

将分析出来的有意义的特征加入特征库中再进行

2019135-2

剩余11页未读，继续阅读

评论收藏

内容反馈

weixin_38740201

粉丝: 7
资源: 949

基于高斯混合模型的增量聚类方法识别恶意软件家族

基于混合高斯模型的物体成分拟合方法

基于高斯混合模型的自然环境声音的识别1

基于高斯混合模型（GMM）的说话人识别实验.zip

gaitrec:使用高斯混合模型的基于加速度计的步态识别

基于高斯混合模型聚类的风电场短期功率预测方案：优化分组与RBF神经网络验证,基于高斯混合模型聚类的风电场短期功率预测方案：优化分组与RBF神经网络验证,基于高斯混合模型聚类的风电场短期功率预测方法 说

基于高斯混合模型聚类CNN-BiLSTM-Attention风电场短期功率预测方法（Python和Matlab代码实现）

基于高斯混合模型聚类的风电场短期功率预测方案：优化分组与RBF神经网络验证,基于高斯混合模型聚类的风电场短期功率预测方法 说明：该方法结合数据分布特征，利用 GMM 聚类将大型风电场划分为若干机组群

基于python的高斯混合模型（GMM 聚类）的 EM 算法实现

基于高斯混合模型GMM的聚类项目matlab源码+详细注释（课程作业）.zip

基于高斯混合模型的自动图像标注方法

基于高斯混合模型（GMM）的说话人识别matlab.zip_calcpost_gmm 训练_混合高斯模型_话者识别_高斯混合模型

3-基于高斯混合模型的语音识别.zip_matlab_matlab语音识别_混合高斯模型_语音识别_高斯混合模型

python实现k-means聚类方法和混合高斯模型

基于Python实现 k-means 聚类方法和混合高斯模型【100011737】

高斯混合聚类算法实现C++

计算机研究 -基于混合高斯模型的聚类分析.pdf

基于EM算法的GMM高斯混合模型聚类过程matlab仿真,动态显示EM估计过程+代码仿真操作视频

高斯模型（聚类，回归等）

基于MFCC和高斯混合模型的语音识别).zip

基于高斯混合模型的说话人识别

基于Python实现的k-means聚类方法和混合高斯模型.zip

协方差矩阵求解算法及高斯混合模型聚类_混合矩阵_limitedwxg_聚类算法_协方差矩阵_高斯混合模型_

论文研究-一种基于代表点的增量聚类算法.pdf

machine_learning的使用python基本算法实现，包括正则化的多项式拟合，em对高斯混合模型的聚类.zip

聚类算法-高斯混合模型GMM

高斯混合模型（GMM）方面的论文集

最新资源

基于高斯混合模型聚类的风电场短期功率预测方案：优化分组与RBF神经网络验证,基于高斯混合模型聚类的风电场短期功率预测方案：优化分组与RBF神经网络验证,基于高斯混合模型聚类的风电场短期功率预测方法说

基于高斯混合模型聚类的风电场短期功率预测方案：优化分组与RBF神经网络验证,基于高斯混合模型聚类的风电场短期功率预测方法说明：该方法结合数据分布特征，利用 GMM 聚类将大型风电场划分为若干机组群