分别基于贝叶斯、BP神经网络、KNN进行邮件入侵分类检测python源码+详细项目说明+数据集+模型.zip

共51个文件

png：23个

html：9个

py：6个

版权申诉

毕业设计

课程设计

期末大作业

课程大作业

138 浏览量 2024-01-16 20:04:01 上传评论收藏 3.4MB ZIP 举报

1.项目代码功能经验证ok，确保稳定可靠运行。欢迎下载使用！在使用过程中，如有问题或建议，请及时私信沟通，帮助解答。 2.主要针对各个计算机相关专业，包括计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师或企业员工使用。 3.项目具有丰富的拓展空间，不仅可作为入门进阶，也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。分别基于贝叶斯、BP神经网络、KNN进行邮件入侵分类检测python源码+详细项目说明+数据集+模型.zip 邮件分类（贝叶斯+SVM） classify.py ### Prerequisites - Python3 - pandas - pyecharts>=1.0.0 - snapshot_selenium - skleran ### Getting Start --- ```python classify.py``` 一共三种分类方法：KNN、高斯贝叶斯和BP神经网络，后来也加上了决策树三种方法一同进行并输出分类结果 ### Result 分别展示二分类和五分类下的结果与分析。其中交叉验证法的折数均设为5。因为个人电脑的原因，一共只抽取原数据集的20%约8w条数据包作为训练集和测试集，其中测试集占20%。 #### 二分类 **交叉验证法** **KNN参数设定** 在这里我一共选取了K等于3、5、7、9、11、13、15这几种情况，分别测试他们的平均准确率，如下图所示： <img src="img.asserts/1593583426178.png" alt="1593583426178" style="zoom:67%;" 整体效果是不错的，其中K=3和K=5时平均准确率最高，最终选择**K=3**作为二分类下的KNN算法的K值。 **决策树参数设定** 首先是```max_depth```，范围为10到30，各值设定下的正确率如下所示： <img src="img.asserts/1593582724875.png" alt="1593582724875" style="zoom:67%;" 可以看到等于26和30的时候最高，这里取值为**26**，在此设定下，在对测试范围为2到20的进行正确率的检测，如下： <img src="img.asserts/1593582778823.png" alt="1593582778823" style="zoom:67%;" 最终min_samples_split设定为 **2**。 **性能评价** 首先先看各模型下的混淆矩阵： <img src="img.asserts/1593582820570.png" alt="1593582820570" style="zoom:67%;" 下面是各模型的准确率、精确率、召回率和F1-Score（这里我将结果都扩大了100倍）： <img src="img.asserts/1593582840738.png" alt="1593582840738" style="zoom:67%;" 最后是ROC曲线和P_R曲线： | **ROC** | **P_R** | | ---------------------------- | ---------------------------- | | ![img](img.asserts/wps8.png) | ![img](img.asserts/wps9.png) | ROC曲线中，每一个模型的AUC面积保留两位小数点后均为1，包括P_R曲线中也不好看出模型之间的区别，而由混淆矩阵的结果也不难看出，这几个模型的分类结果均较好，并且正确率等指标也在94% 之上，但总的来说其中KNN表现得最好。当然这四个模型都存在着将正常数据包和异常数据包识别成对方的情况。 #### **五分类** **交叉验证法** **KNN参数设定** 测试的K值和折数的设定与二分类一致。每个K值对应的平均准确率如下： <img src="img.asserts/1593582921181.png" alt="1593582921181" style="zoom:67%;" 根据该结果，五分类下的KNN算法的K值同样设定为**3**。 **决策树参数设定** 首先是```max_depth```参数，取值范围10到30，正确率如下：

资源推荐

资源详情

资源评论

收起资源包目录

分别基于贝叶斯、BP神经网络、KNN进行邮件入侵分类检测python源码+详细项目说明+数据集+模型.zip （51个子文件）

项目说明.md 7KB

data

kddcup.data_10_percent_corrected_save_8w.csv 32.88MB

classify_knn.py 4KB

dataset.py 3KB

BP.py 2KB

tree.py 2KB

model

5_bayes_8w.pkl 10KB

5_bp_8w.pth 24KB

2_bayes_8w.pkl 4KB

2_tree_8w.pkl 12KB

5_tree_8w.pkl 21KB

2_bp_8w.pth 24KB

__pycache__

classify_knn.cpython-37.pyc 3KB

tree.cpython-37.pyc 2KB

bayes.cpython-37.pyc 2KB

BP.cpython-37.pyc 2KB

bayes.py 2KB

img.asserts

1593582998870.png 79KB

1593583078908.png 65KB

1593583174284.png 68KB

1593582724875.png 80KB

1593583089001.png 38KB

1593583426178.png 37KB

1593582840738.png 38KB

1593583049920.png 70KB

1593582778823.png 74KB

1593582820570.png 38KB

1593582921181.png 43KB

1593583183495.png 38KB

classify.py 12KB

result

2020-05-01_11-24-07P_R.png 75KB

2020-05-01_11-24-07性能评价.html 5KB

各分类正确率_4w.html 5KB

Loss.png 20KB

2020-05-01_10-58-00混淆矩阵.png 44KB

各分类正确率.html 5KB

二分类正确率.PNG 29KB

2020-05-01_11-24-07ROC.png 74KB

2020-05-01_11-17-05P_R.png 59KB

min_samples_split.html 7KB

2020-05-01_11-24-07混淆矩阵.png 76KB

echarts.min.js 373KB

正确率.html 5KB

max_depth.html 7KB

2020-05-01_11-17-05ROC.png 56KB

2020-05-01_10-58-00P_R.png 39KB

2020-05-01_10-58-00性能评价.html 5KB

2020-05-01_10-58-00ROC.png 49KB

2020-05-01_11-17-05性能评价.html 5KB

正确率_5分类.html 5KB

2020-05-01_11-17-05混淆矩阵.png 65KB

import pandas as pd import numpy as np import torch from time import time, strftime, localtime, clock from sklearn import metrics from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.naive_bayes import GaussianNB from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import roc_curve, auc from sklearn.metrics import precision_recall_curve from sklearn.metrics import confusion_matrix from sklearn.metrics import accuracy_score from sklearn.metrics import precision_score from sklearn.metrics import recall_score from sklearn.metrics import f1_score import joblib from classify_knn import Knn from bayes import Gaussian_Bayes from BP import Net from tree import Tree from pyecharts.charts import Line from pyecharts.charts import Bar import pyecharts.options as opts import matplotlib.pyplot as plt class Classify(): def __init__(self, category=5): self.datafile = 'data/kddcup.data_10_percent_corrected_save_8w.csv' # self.datafile = 'data/corrected_save2.csv' self.category = category plt.rcParams['font.family'] = ['sans-serif'] plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus']=False self.time=strftime("%Y-%m-%d_%H-%M-%S", localtime()) def train_test(self): df_all = pd.read_csv(self.datafile) drop_name = [str(i) for i in range(31, 42)] y = np.array(df_all['41']) # 表示分类的列 df_all = df_all.drop(drop_name, axis=1) # 删除后十个 x = np.array(df_all) self.train_data, self.test_data, self.train_target, self.test_target = train_test_split(x, y, test_size=0.2, random_state=1) # 划分数据集 # 处理为二分类 def classify_two(self): for i in range(len(self.train_target)): if self.train_target[i]!=0: self.train_target[i]=1 # 不是正常的标签就置为1 for i in range(len(self.test_target)): if self.test_target[i]!=0: self.test_target[i]=1 # 不是正常的标签就置为1 def classify(self): model_evaluation = {} model_confusion = {} model_score = {} path = 'model/'+str(self.category)+'_' print("真实结果：",self.test_target) # knn = Knn() # k = knn.choose_K(5, self.train_data, self.train_target) # print("最终选择的k为："+str(k)) # knn = Knn(3) # knn.fit(self.train_data, self.train_target) # knn_result, knn_result_pro = knn.predict(self.test_data) # print("KNN预测结果：",knn_result) # knn_evaluation = self.Evaluation(self.test_target, knn_result) # model_evaluation['KNN']=knn_evaluation # knn = KNeighborsClassifier(n_neighbors=3) # knn.fit(self.train_data, self.train_target) # joblib.dump(knn, path+"knn_8w.pkl") knn = joblib.load(path+"knn_8w.pkl") knn_result = knn.predict(self.test_data) knn_result_pro = knn.predict_proba(self.test_data) print("KNN预测结果：",knn_result) knn_evaluation, knn_confu = self.Evaluation(self.test_target, knn_result) model_evaluation['KNN']=knn_evaluation model_confusion['KNN']=knn_confu model_score['KNN']=knn_result_pro # bayes = GaussianNB() # bayes.fit(self.train_data, self.train_target) # joblib.dump(bayes, path+"bayes_8w.pkl") bayes = joblib.load(path+"bayes_8w.pkl") bayes_result = bayes.predict(self.test_data) bayes_result_pro = bayes.predict_proba(self.test_data) print("贝叶斯预测结果：",bayes_result) bayes_evaluation, bayes_confu = self.Evaluation(self.test_target, bayes_result) model_evaluation['贝叶斯']=bayes_evaluation model_confusion['贝叶斯']=bayes_confu model_score['贝叶斯']=bayes_result_pro # bp = Net(self.train_data.shape[1], [20], self.category) # bp.train(self.train_data, self.train_target, 10000) # torch.save(bp,path+'bp_8w.pth') bp = torch.load(path+'bp_8w.pth') bp_result, bp_result_pro = bp.test(self.test_data) print("BP神经网络预测结果：",bp_result) bp_evaluation, bp_confu = self.Evaluation(self.test_target, bp_result) model_evaluation['BP神经网络']=bp_evaluation model_confusion['BP神经网络']=bp_confu model_score['BP神经网络']=bp_result_pro # tree = Tree() # tree.choose(self.train_data, self.train_target, self.test_data, self.test_target) # tree = DecisionTreeClassifier() # tree.fit(self.train_data, self.train_target) # joblib.dump(tree, path+"tree_8w.pkl") tree = joblib.load(path+"tree_8w.pkl") tree_result = tree.predict(self.test_data) tree_result_pro = tree.predict_proba(self.test_data) print("决策树预测结果：",tree_result) tree_result = tree_result.astype(int) tree_evaluation, tree_confu = self.Evaluation(self.test_target, tree_result) model_evaluation['决策树']=tree_evaluation model_confusion['决策树']=tree_confu model_score['决策树']=tree_result_pro self.draw_evaluation(model_evaluation) self.draw_confusion(model_confusion) multi = True if self.category==2: multi = False self.ROC(self.test_target, model_score, multi=multi) self.P_R(self.test_target, model_score, multi=multi) def Evaluation(self, target, test): self.loss = [] for i in range(self.category): if i not in target and i not in test: self.loss.append(i) result = [] # 混淆矩阵 confusion = confusion_matrix(target, test) if len(self.loss)!=0: for l in self.loss: b = np.zeros(confusion.shape[0]) confusion = np.insert(confusion, l, b, axis=1) b = np.zeros(confusion.shape[1]) confusion = np.insert(confusion, l, b, axis=0) # 准确率 ACC = round(100*(accuracy_score(target, test)),2) result.append(ACC) # 精确率 P = round(100*(precision_score(target, test, average="weighted")),2) result.append(P) # 召回率 R = round(100*(recall_score(target, test, average="weighted")),2) result.append(R) # F1-Score F = round(100*(f1_score(target, test, average="weighted")),2) result.append(F) return result, confusion def ROC(self, target, model_score, multi=False): fig = plt.figure(figsize=(8,8)) for model, socre in model_score.items(): if multi: new_target = [] for t in target: y = np.zeros(self.category-len(self.loss)) y[t]=1 new_target.append(y) new_target = np.array(new_target) fpr = {} tpr = {} roc_auc = {} for i in range(self.category-len(self.loss)): fpr[i], tpr[i], _ = roc_curve(new_target[:, i], socre[:, i]) roc_auc[i] = auc(fpr[i], tpr[i]) all_fpr = np.unique(np.concatenate([fpr[i] for i in range(self.category-len(self.loss))])) mean_tpr = np.zeros_like(all_fpr) for i in range(self.category-len(self.loss)): mean_tpr += np.interp(all_fpr, fpr[i], tpr[i]) mean_tpr /= (self.category-len(self.loss)) FPR = all_fpr TPR = mean_tpr else:

评论收藏

内容反馈

版权申诉