没有合适的资源?快使用搜索试试~ 我知道了~
针对属于同一个家族的恶意软件的行为特征具有逻辑相似性这一特点,从行为检测的角度通过追踪API函数调用的逻辑规则来提取恶意软件的特征,并利用静态分析与动态分析相结合的方法来分析恶意行为特征。此外,依据恶意软件家族的目的性、继承性与多样性,构建了恶意软件家族的传递闭包关系,并改进了基于高斯混合模型的增量聚类方法来识别恶意软件家族。实验证明,所提方法不仅能节省恶意软件检测的存储空间,还能显著提高检测的准确率与识别率。
资源推荐
资源详情
资源评论
2019 年 6 月 Journal on Communications June 2019
2019135-1
第 40 卷第 6 期 通 信 学 报 Vol.40
No.6
基于高斯混合模型的增量聚类方法识别恶意软件家族
胡建伟
1
,车欣
1
,周漫
2
,崔艳鹏
1
(1. 西安电子科技大学网络与信息安全学院,陕西 西安 710071;2. 华中科技大学网络空间安全学院,湖北 武汉 430074)
摘 要:针对属于同一个家族的恶意软件的行为特征具有逻辑相似性这一特点,从行为检测的角度通过追踪 API
函数调用的逻辑规则来提取恶意软件的特征,并利用静态分析与动态分析相结合的方法来分析恶意行为特征。此
外,依据恶意软件家族的目的性、继承性与多样性,构建了恶意软件家族的传递闭包关系,并改进了基于高斯混
合模型的增量聚类方法来识别恶意软件家族。实验证明,所提方法不仅能节省恶意软件检测的存储空间,还能显
著提高检测的准确率与识别率。
关键词:恶意软件家族;高斯混合模型;增量聚类;API 函数调用;逻辑规则
中图分类号:TP393
文献标识码:A
doi: 10.11959/j.issn.1000−436x.2019135
Incremental clustering method based on Gaussian
mixture model to identify malware family
HU Jianwei
1
, CHE Xin
1
, ZHOU Man
2
, CUI Yanpeng
1
1. School of Network and Information Security, Xidian University, Xi’an 710071, China
2. Institute of Cyberspace Security, Huazhong University of Science and Technology, Wuhan 430074, China
Abstract: Aiming at the logical similarity of the behavioral characteristics of malware belonging to the same family, the
characteristics of malware were extracted by tracking the logic rules of API function call from the perspective of behavior
detection, and the static analysis and dynamic analysis methods were combined to analyze malicious behavior character-
istics. In addition, according to the purpose, inheritance and diversity of the malware family, the transitive closure rela-
tionship of the malware family was constructed, and then the incremental clustering method based on Gaussian mixture
model was improved to identify the malware family. Experiments show that the proposed method can not only save the
storage space of malware detection, but also significantly improve the detection accuracy and recognition efficiency.
Key words: malware family, Gaussian mixture model, incremental clustering, API function call, logic rule
1 引言
近年来,利用恶意软件进行网络攻击的行为越
来越多
[1]
。恶意软件利用欺骗技术可以在发动攻击
的同时逃避反病毒检测,具有多态性、隐蔽性、易
感染性等特性,严重影响网络数据或程序的安全
性、使用性与整合性,给互联网和用户带来巨大威
胁,造成严重的损失,因此,恶意软件检测技术已
经成为目前信息安全人员的研究热点之一。
然而,当前的恶意软件检测技术存在高误报率
和高漏报率的不足
[2]
,难以检测出采用了欺骗技术
的恶意软件。值得注意的是,目前流行的恶意软件
都具有很强的目的性,恶意代码编写者依据已有的
恶意软件不断开发出行为目的相似但代码结构又
不完全相同的恶意软件,从而形成恶意软件家族。
据研究结果证实
[3]
,超过 98%的新恶意软件样本实
收稿日期:2018−12−07;修回日期:2019−05−21
通信作者:周漫,zhou_man1125@hust.edu.cn
基金项目:国家自然科学基金资助项目(No.61272033)
Foundation Item: The National Natural Science Foundation of China (No.61272033)
第 6 期 胡建伟等:基于高斯混合模型的增量聚类方法识别恶意软件家族 ·149·
际上是来自现有恶意软件系列的“衍生物”,新的
恶意软件继承了原始恶意软件的部分功能。为了躲
避检测并快速地部署恶意软件,黑客通常不会重新
开发新的恶意软件,而是改进恶意软件现有的行为
逻辑或者在现有的恶意软件中添加新的恶意行为
逻辑,即新的恶意软件具有继承性与多态性。本文
将具有相似行为逻辑或者相同行为目的的恶意软
件集合称为恶意软件家族。
为了提高恶意软件检测的准确率与检测效率,
本文提出了基于高斯混合模型(GMM, Gaussian
mixture model)的增量聚类方法来识别恶意软件家
族。本文的主要工作如下。
1) 依据属于同一个家族的恶意软件的行为特
征具有逻辑相似性这一特点,本文从行为检测的角
度分析并识别恶意软件家族。
2) 为了构建恶意行为特征的分析框架,本文利
用静态分析与动态分析相结合的方法来提取 API 函
数调用的抽象特征,通过分析 API 函数调用的参数
依赖关系来构建恶意软件行为逻辑图。
3) 为了找到拥有整个软件家族恶意行为特征
的恶意软件群 U
M
与拥有软件家族成员共有的恶意
行为特征的恶意软件群 C
M
,本文依据恶意软件家
族行为的继承性与多样性,为特定目的的恶意软件
家族构建 4 个行为传递闭包,并建立特征行为与恶
意软件的一对一映射关系。
4) 针对传统聚类方法不能利用上一次聚类结
果,从而导致耗时、资源浪费等问题,本文采用基
于高斯混合模型的增量聚类方法来识别恶意软件
家族,创建并动态调整与恶意软件家族的进化史相
一致的高斯混合模型树,并引入增量学习,同时进
行恶意软件家族的识别与恶意样本的聚类。
2 研究背景和相关工作
随着当前恶意软件的欺骗技术越来越成熟,以
及各类病毒数量的急剧增加,导致传统的恶意软件
检测技术不再有效。因此,出现了各种基于行为的
恶意软件检测技术。Pektas 等
[4]
通过 API 调用序列
挖掘和搜索 n-gram 从而收集代表恶意软件行为特
征的集合。针对目前恶意软件识别率下降的现状,
Han 等
[5]
指出造成这种困境的原因是越来越多的目
的性恶意软件攻击已经出现,与传统恶意软件几乎
没有共同特征。Han 等基于可判定理论,证明了任
何软件执行的任务都是递归的和可确定的,并通过
建立从软件到任务的多对一的映射,证明了包括恶
意软件在内的各类软件也是递归的,并且可以由相
应的任务来确定。
为了提高检测恶意软件的准确率,Kolosnjaji
等
[6]
提出首先在沙箱中执行恶意软件样本以收集系
统调用,然后使用深度神经网络对恶意软件的系统
调用序列进行建模以用于恶意软件分类。Cho 等
[7]
利用动态行为分析工具将 API 序列提取为恶意软件
行为报告,然后使用 Malheur 进行聚类和分类分析。
近年来,基于机器学习和数据挖掘算法的恶意
软件行为特征的分析方法逐渐受到研究人员的重
视。Santos 等
[8]
提出使用可执行文件的操作码序列
频率来检测和分类恶意软件,通过这种方式来训练
机器学习算法从而检测未知的恶意软件变种。Arp
等
[9]
将针对 API 函数的静态分析与机器学习算法相
结合,以检测恶意软件。他们在向量空间中嵌入了
特征,从向量空间中发现了恶意软件模型,并使用
这些模型构建了机器学习检测系统。
传统的聚类方法主要是利用批处理模型来发
现固定特征数据库的数据集群,但是目前出现了越
来越多的动态数据集,数据点以流形方式输入。在
这种情况下,增量聚类可以有效地处理这样的数据
集
[10]
。当不断输入数据点时,增量聚类逐步更新聚
类结果,使当前的所有数据存在一个最新的聚类。
为了对流数据进行数据聚类,Wan 等
[11]
提出了一种
基于高斯混合模型的新型增量聚类方法,称为
ICGT(incremental clustering of GMM tree)。ICGT
创建并动态调整与数据流顺序一致的 GMM 树,树
中的每个叶子节点对应于密集高斯分布,每个非叶
子节点对应于 GMM。为了更新 GMM 树以插入新
输入的数据点,Wan 等引入了节点连接和连接子集
的定义,并提出了树更新算法,实验结果证实所提
方法是有效的。
3 恶意软件家族识别
基于软件家族恶意行为的依赖性与继承性
[12]
,
人们能为每个恶意软件家族建立一个特征库,并挑
选出具有代表性的恶意软件集合。当出现未知的恶
意软件时,人们可以提取它的特征,并与最具代表
性的恶意软件集合的特征进行比对,如果具有该家
族的恶意签名或特征,则此未知的恶意软件属于该
恶意软件家族;否则,需要分析软件的行为特征,
将分析出来的有意义的特征加入特征库中再进行
2019135-2
剩余11页未读,继续阅读
资源评论
weixin_38740201
- 粉丝: 7
- 资源: 949
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python的CICD流程优化003设计源码
- 基于Python3.11和MySQL8.0.34的学生选课信息管理系统设计源码
- Vue3.0 + Typescript + Sass + Vant 移动端,附属微信朋友圈demo 访问weizhan.site.zip
- 基于Java与Shell语言的应急管理系统后台管理源码设计
- 基于PyTorch的Speech-Transformer设计源码实现
- 大型语言模型在中文金融领域的基准评估系统-CFBenchmark的引入与应用
- VueJS 的标签输入组件.zip
- 金融科技领域的大型语言模型:BloombergGPT的介绍与应用
- VueJS 组件用于选择日期和时间,包括范围模式.zip
- 基于Python的融平台-海丝-门户网站全栈设计源码
- 基于Python与Html的Fudan大学期末大作业低配版设计源码
- 基于大型语言模型构建中文金融助手(CFGPT)的技术与应用
- VueJS 音频可视化组件.zip
- 基于LLaMA模型利用医疗知识微调构建的医疗对话系统ChatDoctor
- 基于C++国产自研的NebulaGraph分布式图数据库设计源码
- vuejs.org 的 VitePress 主题 .zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功