论文研究-基于卷积神经网络的未知流量分类策略 .pdf

所需积分/C币:50 2019-08-14 16:49:22 336KB .PDF
150
收藏 收藏
举报

基于卷积神经网络的未知流量分类策略,陈晔欣,黎淑兰,为了提高网络流量分类的准确性及健壮性,本文设计了基于卷积神经网络的网络流量分类系统,并在此基础上针对混合流量中存在未知类
国武技论文在线 http://www.papcr.cdu.cn raw trat 数据流切割 f now ,出你国和 acket packet 关键数据提取 packet 1 packet 2 packet n length length length 维度转换 图1网络流量数据预处理 Fig. 1 Preprocessing of network traffic classification 1)数据流切割:将原始流量分为离散数据流单元,每个数据流为一个样本。数据流 的判断标准是具有相同五元组(源I地址、源端口号、目的IP地址、目的端口号和传输层 协议)的数据包。 (2)关键数据提取:首先提取每个数据流的前n个数据包,丢弁超过部分的数据包 若数据流长度不足则在末尾补0。然后进行匿名化,即去掉IP层的IP地址和数据链路层的 MAC地址。若不同流量来自不同网终,则MAC地址和IP地址可能影响特征提取过程。 75 (3)维度转换:统一数据包的长度,即提取何个数据包屮的前1位数据,丢弃超过部 分的数据,若数据包长度不足则在末尾补0。n个数据包中提取的数据构成n的二维数组, 作为二维苍积神经网络的输入。 122网络层次结构 卷积神经网终主要由卷积层、池化层、全连接层组成 卷积神经网络的特征提取由卷积层完成,将输入数据的各个局部分別与尺寸小于输入数 据的小矩阵,即卷积核进行卷积,卷积的结果作为激励函数的输入,激励函数的输出即为该 层的输出。此处所说的卷积是指相同尺寸矩阵的相同位置对应数据分别相乘的结果之和作为 输出矩阵对应位置的值。苍积层的计算如下,x为苍积层输入,h为窗口大小,S为步长,w 为苍积核,相当于各位置输入数据对应的权值,b为偏置量,f(net)为激励函数。 Ct=f(W*x,计h-1+b) (1) 85 池化层通常紧随积层之后,用于精简特征,可以增加所提取特征的代表性,并提高运 算速度。设n为输入数据的边长,p为 padding参数(池化层中通常取0),「为卷积核的边 国武技文在线 httpiwww.papcr.cdu.cn 长,s为步长,则输出数据的边长如下 几+2p-f 70 pooling) +1 最常用的池化是最大池化,即输出的每一位是过滤器对应范围内的最大值。 全连接层即普通人工神经网络,同层中的每个神经元均与相邻层的每个神经元相连, 90 输入层和输出层之间的称为隐臧层,含有多个隐臧层的人工神经网络称为深度神经网络 ( Deep neural| Network,DNN),与卷积层考虑空间结构(局部特征)不同,全连接层对所 有输入一视同仁。全连接层之前的部分将输入数据呋射到特征空间,即特征上程;全连接层 则将分布式特征映射到样本标记空间,即特征加权。 本文根据网络流量输入数据大小设计的卷积神经网络结构如下:第一层是卷积层,采用 95 32个5*5的卷积核初步提取特征;第二层是最大池化层,减少参数量;第三层是卷积层, 采用64个5*5的卷积核进一步提取特征:第四层是最大池化层,再次精简参数;第五层是 将特征数据展为一维形式;第六层和第七层是仝连接层,神经元数目分别是128和10 第八层是输出层,判所样本类别。在卷积层中,激励函数采用Relu。 卷积层(5,5,1,32) 最大池化(2,2) 卷积层(5,5,32,64) 最大池化(2,2) 数据展平 全连接层(128) 全连接层(10) 类别判断 100 图2卷积神经网络结构设计 Fig 2 Designof convolutional neural nctwork 国武技文在线 httpiwww.papcr.cdu.cn 2未知流量识别策略 21系统结构设计 05 如图,网络流量数据预处理方法和积神经网络各层结构沿用上一章的探索结果,原始 训练数据通过前文所述数据预处理模块,生成训练数据,输入训练模块。训练模块的卷积神 经网络除了训练各相邻层神经元之间的权值外,还会根据类别判断吋的最大概率来探索最佳 阈值。绛过预处理的测试数据输入训练好的模型后,根据网络学习的特征分别得出该杵本属 于训练过的n种样本的概率,将概率最大的类别作为粗分类结果,并根据训练吋计算的最佳 110 阈值进一步判断是否该接受该分类结果,即样本是否属于未知别。若最大概率大于阚值, 则接受该分类结果,否则归为未知类别(包括判错类别)。 原始训练数据原始测试数据 类别1 测试数据 类别2 LCN模型」未知类别判断 分类结果 类别n 测试模块 数据预处理模块 未知类别 特征提取 数据精简 类别 训练数据 值 类别2 类别判断 反馈调整7探 索 类别n 训练模块 图3基于卷积神经网络的未知流量识别系统结构 Fig. 3Structure of unknown traffic identification system based on convolutional neural network 115 22阈值训练方法 人工设定的阈值不能保证系统分类性能达到最优,而某次实验确定的值只适用于该次实 验所用数据,因此,最佳阈值的确定应融入训练过程,根据当前用于训练的网络流量数据进 行动态优化。最佳阈值训练的方法如下: (1)在数据集的最后一轮训练中(最后一个 epoch,此时网络参数最能体现训练数据 120 特征,代表训练阶段最佳结果),记录每个样本是否判断正确及判断结果对应的枧率。 (2)在最佳阈值预估范围内(根据可行性分析可预估0.7-1),以一定频率抽样作为阌 值探索样本,统计类别判断正确且概率大于阈值、类别判断错误且概率小于阈值的总样本数, 即未知类别认别正确的样本数。 (3)找出未知类别识别正确的样本数最大值对应的阈值前后相邻阈值,作为进·步的 125 判断范围的上下界,以更密集的频率抽样作为阈值探索杵本,按第2步类似方法统计未知类 别识别正确的样木数,未知类别识别正确的样木数最大值对应的阀值即为训练得出的最佳闯 值 5 国武技文在线 httpiwww.papcr.cdu.cn 3实验仿真与分析 3.1仿真环境与评价指标 130 本文所采用的数据集节选自 Github上的公开数据集USTC-TFC2016。该数据集由Wei Wang等人于2016年纠建,本文选取其中五种正常应用流量和五种有害流量作为实验数据。 本文釆用的仿真环境如下:操作系统为64位 Windows10专业版,处理器为 Intel Core Mi7-4700 HQ CPU@240GIz,内存为12.0GB(119GB可用),采用 NVidiA GeForce gt 745M的GPU加速,深度学习框架为 Tensorflow。 135 网络流量分类公认的性能评价指标是准确率、精度、召叵率、F1值,其屮准确率用于 分析网络流量分类系统的整体性能,精度、召回率和F1值考察系统对各具体类别的识别能 力。计算公式如下,其中TP是指被判定为目标类別的目标样本,FN是指被判定为不属于 日标类別的目标样本:FP和TN代表不属于月标类别的样本,其中FP是指被判定为目标类 别的非目标样本,TN是指被判定为非目标类别的非目标样本 TP+TN accuracy TP+ FP+TN+ FN TP Caslon tP+ FP TP recall TP+ FN recision*recall F1=2 precision recall 140 32仿真结果与分析 321未知流量对分类系统的影响 本文首凭验证了前文设计的卷积神经网络对数据集里十种流量的分类性能,然后将其屮 两种流量作为未知流量,即训练数据中不包含此二种流量,而测试数据中包含全部十种流量。 45 实验结果对比如下。 6 国武技论文在线 http://www.papcr.cdu.cn 0.9 0.85 迥08 0.75 0.7 0.65 0.6 8 类别 原精度·加入未知类后精度 (a)精度对比 0.95 0.9 0.85 姆08 0.75 0.7 0.65 0.6 类别 …原F1·加入未知类后F1 (b)F1值对比 150 图4未知类对系统分类性能的影响 Fig 4The impact of unknown classes on system classification performance 属于训练数据中所含类别的样本中绝大多数得到正确的分类结果,而属于两个未知类别 的样本杂乱划分为各已知类別。被正确识別的未知样本为0,同时,识別为各已知类別的样 木中正确分类的比例降低,即召回率不变,精度下降,F1值随之下降。由图4可以看出, 155 将未知类直接强行划分为某·已知类对系统分类性能的伤害相当大。在实际应用中,未知类 别的网络流量数据在整体网络流量数据屮所占比例小于本实验屮设定的20%,对系统准确 性的危害也会相应减小,但本实验可以定性地证明不对未知类进行特殊处理时,系统整体性 能受到的影响不容忽视。 322未知流量识别策略验证 160 在本文的设计中,未知类识别國值不是固定值,而是在训练中确定的针对训练数据的最 优解。在仿真结果屮,正确识别样本百分比为正确划分为目标类的已知类别杵本和成功认别 国武技论文在线 http://www.papcr.cdu.cn 为未知类的未知类别样本数目之和在所有样本中所占百分比 第一步,本文以0.05为步长,粗略仿真了阈值的变化对正确识別样本百分比的影响。 如图5,当阈值小亍0.25左右时,正确识別样本百分比不受影响,保持为无阈值的结果,因 165 为几乎所有样本的分类最大概率都大于该阈值。随着阈值增大,越米越多的未知类别样本被 成功识别,系统整体准确率不断提髙。当系统整体准确率达到峰值后反而会开始下降,因为 此时大量本可以成功分为目标类别的已知类别样本被错误地识别为未知类别。 91 尔需片 83 81 R8器8器 阈值 图5正确识别样本百分比随阈值变化趋势 Fig 5 Correctly identify sample percentage change trend with threshold 170 第二步,以0.003为步长,进一步探索最佳阈值。根据图5的曲线走势,可以确定系统 分类准确率的峰值出现在区间[0.85,0.95之间。从图6显示的曲线中可以看出,正确识别 样本数目的变化存在波动,但整体趋势有迹可循,对于本次仿真实验中所用样本,最佳阈值 约为0904。 895 894 迟 893 士 892 89.1 889 888 88.6 88.5 阈值 175 图6最佳阂值区间正确识别样本百分比随阈值变化趋势 Fig 6The optimal threshold interval correctly identifies the change trend of sample percentage with the threshold valu 国武技论文在线 http://www.papcr.cdu.cn 为了验证本文方法的有效性,本文采用五折交叉检验,即何轮仿真进行五次,将数据集 随机均分为五部分,每轮仿真中各部分依次作为测试数据,数据集的余下部分作为训练数据。 180 由图7可知,采用未知流量识別策略后,系统准确率平均为89.39%,比不设定阈值时提高 了1143个百分点,效果显著。 0.95 0.9 0.85 0.8 0.75 0.7 foldl fold folds ■无未知类别有未知类别■识别未知样本后 图7未知流量识别对系统准硫率的影响 Fig.7 The influence of unknown traffic identification on system accuracy 185 4结论 本文基于对前人将卷积神经网络应用于网络流量分类领域的探索性研究的分析,提出了 种基亍卷积神经网络的未知流量分类策略,根据卷积神经网络输出层对样本类別的判断结 果对应的概率,进一步判断该样本是否疑为未知流量。判断标准在训练中动态确定,保证了 系统墼体分类准确率达到最优。通过仿真实验,本文证明了未知流量对基丁卷积神经网络的 190 网络流量分类系统性能的伤害,及本文提出的未知流量识别策略对系统分类性能的提升。 「参考文献]( References) [江立东,钱丽萍.网络流量分类方法与实践[M]北京:人民邮电出版社,2013 2 IANA. Scrvice Namc and Transport Protocol Port Number Registry[OL]. [2014 http://www.iana.org/assignments/service-names-port-numbers/service-names-port-numbers/ 195 3] J. Kornycky, O. Abdul-Hameed, A. Kondoz. Radio Frequency Traffic Classification Over WLANJI IEEE/ACM Transactions on Networking, 2017, 25(1): 56-68 4]G. Lu, R Guo Cascaded classi ficr for improving traffic classilication accuracy[J]. IET Communications, 2017. 11(11):1 5 Hinton G, Osindero S, The Y w. a fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 200 18(7):1527-1554. 6 M. Lopez, B. Carro, A. Sanchez. Network Traffic Classifier With Convolutional and Recurrent Neural Networks for Internet of Things. TEEE Access. 2017.5: 18042-18050 [7] Wci Wang, Ming Zhu, Xuewen Zeng Malware traflic classilication using convolutional neural nctwork for representation learning[A]. 2017 International Conference on Information Networking (ICOIN)C]. Da Nang, 205 2017.712-717 8 W. Wang, M. Zhu, 3. Wang, X. Zeng. End-to-end encrypted traffic classification with one-dimensional convolution neural networks [A. 2017 IEEE International Conference on Intelligence and Security Informatics (TS)[C], Bcijing.2017.43-48. [9]W. Wang et al. HAST-IDS: Learning Hierarchical Spatial-Temporal Features Using Deep Neural Networks to 国武技文在线 httpiwww.papcr.cdu.cn 210 Improve Intrusion Detection[J]. IEEE Access, 2018, 6: 1792-1806 10]K. Wu, Z Chen, W. Li. A Novel Intrusion Detection Model for a Massive Network Using Convolutional Neural Networks J]. IEEE Access, 2018, 6: 50850-50859 10

...展开详情
试读 10P 论文研究-基于卷积神经网络的未知流量分类策略 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于卷积神经网络的未知流量分类策略 .pdf 50积分/C币 立即下载
1/10
论文研究-基于卷积神经网络的未知流量分类策略 .pdf第1页
论文研究-基于卷积神经网络的未知流量分类策略 .pdf第2页

试读结束, 可继续读1页

50积分/C币 立即下载