# Malware_Detection
通过对恶意文件进行分析与采集数据,基于机器学习算法得到病毒识别模型
- 首先对样本集合进行脱壳预处理,避免影响实验结果
- 其次采用静态分析方法,提取有效特征
- 然后根据不同特征类型,使用不同方法将特征向量化作为机器学习算法的输入
- 最后使用分类模型对文件进行预测,得到分类结果
![算法流程](statics/算法流程.png)
## 静态分析方法
1. 汇编操作码提取
- 利用 IDA Pro 自动反编译原文件(预处理阶段已进行脱壳操作),获得恶意代码的汇编程序
- N-gram、Doc2vec 算法提取Opcode特征
2. 可执行文件结构特征提取
- 根据可执行文件的特性,恶意代码存在不同于合法代码的地方,提取此类特征作为算法的输入
3. 二进制文件的静态特征提取
使用的 9 组静态特征分别是:
- 字节-熵对统计特征
- PE头IAT特征
- 可打印字符
- PE元信息
- 文件一般信息
- 导出函数表EAT特征
- 节信息
- 数据目录
- 字节直方图
## 实验结果
![实验结果](statics/实验结果.png)
- 分别使用 N-gram 算法和 Doc2vec 算法提取数据集中恶意样本的操作码特征,通过解析二进制文件提取静态特征
- 然后将这三种特征应用到七种不同类型的机器学习模型进行训练,这七种机器学习模型包括随机森林、支持向量机、逻辑回归、K 近邻、轻量的梯度提升分类器、朴素贝叶斯以及决策树
## 基于识别模型的恶意代码识别工具
![主界面](statics/主界面.png)
- 根据实验结果选择 LightGBM 分类器作为学习模型,并使用完整的数据集进行训练得到识别模型,同时对超参数进行优化,为模型选择一组最优超参数,以提高模型的性能和效果
- 最终采用 PYQT5图形化编程技术 设计与实现一个简易的基于机器学习的恶意代码检测工具
- 仅用于成果展示,没有实际应用价值 Orz,特点是**多线程扫描**,**文件监控**以及**特征库自动更新**,经过测试杀毒效果还行,但是对于加壳免杀的文件,在数据不够大的情况下还是无法准确识别到
- 使用的实验数据大部分来自Github社区用户分享以及国外各大恶意样本公开平台,使用的样本集大小为13GB(包含10868个样本文件)
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
通过对恶意文件进行分析与采集数据,使用机器学习算法得到病毒识别模型_Malware_Detection.zip (1059个子文件)
4gramfeature.csv 5.13MB
3gramfeature.csv 3.36MB
2gramfeature.csv 1.42MB
subtrainLabels.csv 23KB
X_train.dat 8.83MB
X_test.dat 828KB
y_train.dat 4KB
y_test.dat 356B
Tree.gv 683B
safe.ico 17KB
plugin.idc 997B
train_features.jsonl 9.25MB
test_features.jsonl 700KB
sample_feature.jsonl 14KB
README.md 2KB
Tree.gv.pdf 36KB
Pipfile 138B
主界面.png 140KB
实验结果.png 98KB
quick.png 38KB
whole.png 36KB
算法流程.png 24KB
undo.png 22KB
custom .png 3KB
main.py 40KB
features.py 22KB
evaluate_models.py 7KB
evaluate_models.py 7KB
evaluate_models.py 6KB
__init__.py 5KB
dataset_generator.py 3KB
generate_dataset.py 3KB
convert.py 2KB
opcode_n-gram.py 2KB
vectorize_asm.py 2KB
create_classifier.py 1KB
classify_binaries.py 1KB
get_opcode.py 1KB
randomsubset.py 968B
features.cpython-36.pyc 19KB
__init__.cpython-36.pyc 5KB
vectorize_asm.cpython-36.pyc 2KB
get_opcode.cpython-36.pyc 1KB
malware.sig 0B
main.spec 947B
target_file_list.txt 12KB
requirements.txt 2KB
ctClpAGF7i4oa0f8nYb2.asm.vec 3KB
5Z4xvbHfBY9k8umTM1dj.asm.vec 3KB
9FP8ck1bDe6ETSqAIWLG.asm.vec 3KB
Ee80BjQvgWns9XKqV4Or.asm.vec 3KB
jWid1IPvKStDEqeU89y4.asm.vec 3KB
h1sIMzUVPxaBEXlnbdpS.asm.vec 3KB
H3RfLw5i0P1NC7ohkZ4B.asm.vec 3KB
8wm2jYBqV30okUMfuDCd.asm.vec 3KB
FalYuVzr8LgtiKRZ9oEy.asm.vec 3KB
5sLXK39w4fkSzAVi1Q6U.asm.vec 3KB
KItq3WlgRT4s1SFYwy5Z.asm.vec 3KB
K3DsAmcCyTIbdnNojLwM.asm.vec 3KB
i8WIr0dtVHSGMmwFlcUY.asm.vec 3KB
EysJb6PM3oL5T2UvQ7Sl.asm.vec 3KB
3KWDrvPXBaAxgfGYsoN8.asm.vec 3KB
6Oof29sarJPj8GEbnkTS.asm.vec 3KB
6OdWLjiyZQzgchY2XSTl.asm.vec 3KB
bWMTEq0N6d7KRZhvigGQ.asm.vec 3KB
4unYl0BDo2NvIZGiEJWj.asm.vec 3KB
JILo8u21atlgTbKU4nZO.asm.vec 3KB
i3ObMKnYJjsxV1ECAD6F.asm.vec 3KB
0l5IobyKpuqcwO4NxfgD.asm.vec 3KB
Gbf4Z8pqFsrxyKVQOcWg.asm.vec 3KB
fwhnaCdDvsWFLKb90JHq.asm.vec 3KB
1KB3Z7gd5aN4Xmx8W0sf.asm.vec 3KB
IJkRMnXj2AflNqE0Hac4.asm.vec 3KB
jgOs7KiB0aTEzvSUJVPp.asm.vec 3KB
b4fMnYzOWHxNeGjqRSLp.asm.vec 3KB
c6ZsLyHfl2kpbSd8vTCB.asm.vec 3KB
e2r6IncxE1LQOKFGgphj.asm.vec 3KB
bGPHZFpAL3N957064wzj.asm.vec 3KB
dDBYMFQjmlaAT2rxhP7z.asm.vec 3KB
5rtfSP91u3LJsbzMVWnw.asm.vec 3KB
0FKerJl18xOc3jdoyg4A.asm.vec 3KB
cYb4XuNSqOA9IFLHseG1.asm.vec 3KB
iguj6WF7SPzs9evTrl2n.asm.vec 3KB
CQrRKsfpbjtk43nzmwa9.asm.vec 3KB
ehGfVZy2QXtFzJkO1ESb.asm.vec 3KB
4J9LT6XURDIcbnNkajrB.asm.vec 3KB
2pwjzv6eGEb8QmHPfxSc.asm.vec 3KB
cb72yvfjMuQkKZERh5UP.asm.vec 3KB
K2OouiFyb1xSIVLRNfqE.asm.vec 3KB
icA8Tevx6Qd7tGFpU5V9.asm.vec 3KB
Do5n1Kjei89Es3CuFGqg.asm.vec 3KB
7L1vUywoYlApTXdPFzRZ.asm.vec 3KB
F6cqosn3GRDidyO0fYB5.asm.vec 3KB
6WuXimIJaPd3x8QoGUH0.asm.vec 3KB
5qQY8mHGLFA1pZgWPOXM.asm.vec 3KB
aigX8IufVpNM74At9sx0.asm.vec 3KB
8Z3061HFCR7VUzK25iGx.asm.vec 3KB
hrguW0CqMt2mJdfvX8IB.asm.vec 3KB
idNxFM4agPHCkKzbr2Zh.asm.vec 3KB
mjHAQS2dFEofal48LwTJ.asm.vec 3KB
共 1059 条
- 1
- 2
- 3
- 4
- 5
- 6
- 11
资源评论
普通网友
- 粉丝: 1127
- 资源: 5292
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 培训效果评估调查问卷(修改版).docx
- 中国地级市CO2排放数据(2000-2023年).zip
- 基于MicroPython在ESP32上用TFT-LCD-ST7735显示图像
- 北大纵横—江西泓泰—1201人力资源管理概论培训.ppt
- 北大纵横—江西泓泰—泓泰培训制度-FINAL.doc
- 北大纵横—江西泓泰—江西泓泰工作分析培训报告-final.ppt
- 北大纵横—江西泓泰—人力资源规划制度培训.ppt
- 北大纵横—江西泓泰—瑞兴管理思想培训.ppt
- 北大纵横—江西泓泰—瑞兴人力资源管理培训-招聘和发展.ppt
- 北大纵横—江西泓泰—瑞兴人力资源管理培训-培训.ppt
- 北大纵横—金瀚—冬映红培训制度-0621.doc
- 北大纵横—金瀚—福科多培训制度-0621.doc
- 北大纵横—金瀚—金瀚集团全面预算管理培训报告.ppt
- 北大纵横—金瀚—培训制度-0618.doc
- 北大纵横—金瀚—全面预算管理培训-word.doc
- 2022-2023年度广东省职校信息安全管理与评估竞赛试题解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功