## 用户异常行为检测
本项目采用的是二分类思路,预测哪些是正常用户操作,哪些是伪装用户或者异常操作,数据全是linux bash操作符
目前核心代码和验证已完成,有关部署的一些想法:在ubuntu上装一个bash操作的log实时提取,然后将命令的参数去除,每一百条做为一个基准,有异常强制退出。谁有更稳妥有效简单的部署方案,欢迎提交issue
- ### Masquerading User Data数据集简介:
Matthias Schonlau是加拿大安大略省滑铁卢大学统计学教授他试图通过搜集Linux服务器的Bash操作日志,通过训练识别用户的操作习惯,判断主机上的账户是否被入侵、盗用。然后进行进一步识别账户的异常行为。在他的个人网站上发布了针对Linux操作的训练数据。训练数据中包括50个户的操作日志,每个日志包含15 000 条操作命令,其中前5 000 条都是正常操作,后面的10 000 条日志中随机包含有异常操作。为了便于分析,数据集每100 条操作作为个操作序列,同时进行了标注,每个操作序列只要有1条操作异常就认为这个操作序列异常。
- ### 特征提取与数据清洗:
碰巧兜哥的《web安全之机器学习入门》介绍了此数据集,借鉴他的特征提取方法:
1. KNN_50.py采用了词频统计,将用户使用频率最高的前50条操作和最低的50条操作加以区分,采用KNN训练
2. NB_all.py采用了词集模型,将所有命令作为特征,根据命令的是否命中,将操作序列向量化,采用NB训练
- ### 模型训练:
看了兜哥的用SVM来预测XSS准确度而收到了启发,SVM在向量化的二分类问题优势很大
1. NB_all.py 采用朴素贝叶斯,结果分别与经过交叉验证之后做对比
2. KNN_50.py 经过SVM NB KNN,最终选择knn,并采用十折交叉验证
- ### 预测的准确率:
注意测试集的不同,准确率也不同,默认是user3测试,换作其他user可能会小幅度波动(KNN推荐:24,42,26,36,9;NB推荐:24,42,26,25,15)
1. NB_all.py User9 NB(98%) 十折交叉NB(100%) User24 NB(58%) 十折交叉(100%) User42 NB(60%) 十折交叉(94%)
2. KNN_50.py User9 KNN(98%) 十折交叉KNN(100%) User24 KNN(58%)十折交叉(90%) User42 KNN(60%)十折交叉(64%)
普遍代表:9 十折交叉的提升典范:24 26 特征提取的影响典范:42,15
- ### 不足之处
有些操作我都没见过,如有条件拿到更适用的数据,我会再试一次
- ### 一些思考
机器学习项目里,令人最头疼和繁琐的还是数据清洗和数据特征提取。实验证明**数据清洗和特征提取方法的不同对最后准确率的影响远远大于不同机器学习算法带来的影响**!
没有合适的资源?快使用搜索试试~ 我知道了~
学习用机器学习解决网络安全问题的Demo.zip
共80个文件
py:9个
m:8个
md:3个
需积分: 5 0 下载量 137 浏览量
2024-05-08
10:09:27
上传
评论
收藏 1.26MB ZIP 举报
温馨提示
学习用机器学习解决网络安全问题的Demo.zip
资源推荐
资源详情
资源评论
收起资源包目录
学习用机器学习解决网络安全问题的Demo.zip (80个子文件)
content
DDoS检测
gbdt.py 2KB
.idea
kddcup99.iml 459B
workspace.xml 40KB
misc.xml 212B
modules.xml 268B
paper
网络安全态势感知综述.pdf 579KB
入侵检测数据集KDDCUP99研究_张新有.pdf 187KB
1.png 255KB
mutl_gbdt.py 1KB
model
sumrf_clf.m 103KB
RF_clf.m 981B
land_clf.m 31KB
pod_clf.m 56KB
normal_clf.m 176KB
back_clf.m 32KB
teardrop_clf.m 32KB
neptune_clf.m 133KB
client.py 2KB
README.MD 2KB
用户异常行为检测
All_User_NB_Score.py 5KB
KNN_Result.txt 5KB
MasqueradeDat
User11 92KB
User50 81KB
User31 78KB
User32 75KB
User33 64KB
User39 88KB
User35 61KB
User22 83KB
User8 93KB
User18 101KB
User25 94KB
User30 83KB
User28 82KB
User40 86KB
User43 82KB
User21 65KB
User10 89KB
User15 92KB
User5 79KB
User46 75KB
User26 72KB
User4 78KB
User47 72KB
User42 77KB
User41 86KB
User16 78KB
User2 66KB
User36 69KB
User3 82KB
User9 85KB
User48 89KB
User29 78KB
User38 87KB
User23 73KB
User24 79KB
User6 81KB
User34 76KB
User1 97KB
User20 78KB
User27 87KB
User44 82KB
User37 78KB
User7 80KB
User13 89KB
User14 68KB
User49 79KB
User19 79KB
label.txt 10KB
User12 93KB
User17 66KB
User45 86KB
All_User_KNN_Score.py 7KB
NB_all.py 6KB
NB_all_Color.py 9KB
KNN_50.py 8KB
README.MD 3KB
KNN_50_Color.py 11KB
NB_Result.txt 5KB
README.MD 2KB
共 80 条
- 1
资源评论
生瓜蛋子
- 粉丝: 3828
- 资源: 5678
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功