论文研究-一种使用DBSCAN聚类的网络流量分类方法.pdf

所需积分/C币:6 2019-07-22 20:34:24 344KB .PDF
收藏 收藏
举报

提出了基于DBSCAN算法的网络流量分类方法,对流的定义、特征产生、特征选择以及分类规则和分类性能的评测等内容进行了介绍。提出了基于PCA的网络流量最优特征子集的选择方法。实验结果表明,提出的分类方法能够达到较高的总精确度和查准率,能够有效地使用于网络流量分类中。
第9期 何震凯,等:一种使用 DRSCAN聚类的网络流量分类方法 3463· DBSCAN setOfPoints, Eps, min Pts C∈ arg imax(woe(F∈L) (2) // setpoint表示待聚类的训练样本流集合 luster: nlexlld( NOISE) 其中:ote()表示F中属于类别L,的流数据的数日 for i from 1 to setofPoints. size do 2.4网络流量分类器的分类规则 point:= setOfPoints. get(1) 利用聚类产生的簇及簇所对应的关别,分类器的分类规则 if point clld.= UNCLASSIFIEd then 如式(3)所示 if expand Cluster( setOfl'oints, P fF; is the closest Cu,hemF:∈ L and(∈ clustered, E clustered: nextld( Clustered 利用式(3)的分类规则,对于待分类的流F可以按式(4) d ir 的判别式进行分类 d if F,∈(C.= arg min dist(F,Cf}→L (4) end for 其中:C-+,表示簇所对应的应用类别;lis()表示欧氏距离。 end //DRSCA N 上述伪代码中 setofpoints表示待聚类的训练样本流集合 2.5分类器评测准则 Es和 min pis是两个全局密度参数,这两个参数往往不能惟 本文将采用查准率( precision)和总精确度( overall accura 确定,它们要根据数据集的具体分布情况作出合理的选择。)指标来评价分类器的性能。其计算公式分别如式(5)和 函数 setofpoints.get(i)返回数据点集中的第i条流。聚类函数6)所示。 expandCluster的伪代码如下: cision= TP/(TP+FP) expand Cluster( setOfPoints. Point overall accuracy=2r= TP /total number of flows lustered, Eps, min Pts): Boolean 其中:TP( true positives)是指给定一个类别,正确分类的流数 seeds:=setOfPoints. region Query( point, Eps); 量;FP( false positives)为被错误分类的流的数量。 if seeds. size< min pts then//没有核对象流 setOfPoint. changeClld( Point, NOISE) 3实验评测 return else //all point in seeds are density reachable from Point 3.1实验数据集采集及处理 setOfPoints. changeCllds( seeds, Clld) 通过校园网络中心交换机( ViseU6509)的端口镜像的方 seeds. delete( Paint) 式来采集例绪流量数据。采集时,截取报文前面的128Bye长 while seeds >empty do 度,采集的数据形成 Libpcap(.dmp)格式的络流量踪迹文 current:= seeds. first() 件( race files)。笔者用18个月的时间,在不同的时间段共采 reit:= SetOfPoints. region Query( current,Eps); if resul.se>=集∫大约180GB的刚络踪迹文件。本文只选用一个子集,数 min Pts then 据的信息如表2所示。 for i from i to result, size de 表2Dmp数据的基本信息 resultP: result get(i) data-Sct 始时间 结束时间持续时间/数据大小/GB if resulP CIldIN UNCLASSIFIED, NOISE then 2008-10-09 2008-10-09 1456 4.98 if resultp. clld. UN CLASSIFIED th seeds. append (resultP)i 2008-10-102008-10-11 45193 19:57:48 n8:3l:0 28-10-112008·10-12 setOfPoints. changeCllds( seeds, Clld) 34013 4.1 22:18:18 07:54:35 end if; //UNCLASSIFIED or noise 将网络踪迹文件解析为流之后,要对流的应用类型标注成 形样本流。笔者采用文献[17]的方法进行标注。数据集屮的 end if: //resul size >= Imin PIs 应用类型包含有WWW、DNS、POP3、SMTP、FTP、 SOCKS等常见 seeds. delete( current) 的应用类型和 Bittorrent、 EsPrit等几种P2P类型流量。表3 end while://seeds empty 给出了数据集的相关信息 return true 表3数据集中应用类型的分布 应用类型流的数量例/%应用类型流的数量比例/% WWW 4200 29.58 ESPrit 1200 8.45 上述伪代码中 setofpoints. region Query( point,Es)返回对 2.82 FTP 3000 21.13 point这一点周围邻域内的所有点。 POP3 500 3.52 1200 8.45 ≤OCKS 2.3簇所属的应用类别的确定 训练样本流集合F经过上述聚类方法,可得到多个簇以 在这些样本流的基础上对提出的方法进行了实验和性能 及这些簇的核对象流数据点、簇所包含的训练样本流。设聚类评测。 后的簇用Ck表示,用C.表示簇的核对象点(可看做簇的中3.2特征选择实验 心),每个簇所包含的样本流数据集合用F(F∈F)表示。其 实验中,以表1中的候选特征作为流的初始特征,以采集 中k=1,2,…,K,K表示簇的数日。在前面的介绍中,L={L,…,的样木流集合为对象,运用PCA方法对特征选择实验。 L,…,L}表示流的应用类型的标签集合。簇所属的类别采 实验中,使用各种类型的样本流数量为200, threshold= 用简单多数投票的方式来确定,即按照式(2)进行。 0.90。由1.2节,首先计算协方差矩阵Q的特征值,并按由大 3464 计算机应用研究 小的顺序排列,如图1所示。其中最大的特征值为11.278 08,最小的为0。 4结束语 通过计算,A=31.9465,前十个特征值之和为 实验研究表明,本文提出的基于 DBSCAN聚类算法的网 29.3032,根据∑/∑入> Threshold I原则,前十个特征值的络流量分类方法实现简单、分类准确高;采用的基于PCA特征 选择方法,在网络流量特征选择中也切实可行,能够有效地提 比重达到了91.583%,具体信息见表4。选取与它们对应的特征高算法效率。下一步将继续研究其他聚类算法作为网络流量 代替原始的特征集,于是这些被选的特征即为较优特征子集 °分类工具,找到更快更好的算法,以适应在线和离线的网络流 这些特征是 Packets、 ytes bRackets, bYtes、 minF pktLen、maP量分类。 keen、 meanLenfsum、 minBpktLen、 maxBpktLen, meanLenBsunl 表4前十个特征值的基本信息 参考文献: 特征值 所占比例 累计比例 [1] MITCHELL. T M. Machine learning[ M]. ISF. ed.[S1.]: Mcgraw- 11.27808 0.35244 0.3524 Hill Education. 1997 1.9383 0.15432 0.50676 [2 McGREGOR A, HALL M, LORIER P, et aL. Flow cluster using ma 0.1166 chine learning technique[c]//Proc nf PAM 2004.2004 4 2.0449 0.0639I h87 1.69398 0.05294 0.7402 [3 MOORE A, ZUEV D. Inleruel traffic classification using Bayesian 6 0.04827 D.7884 analysis techniques [ C]//Proc of SIGMETRIC'05. Banff, Canada 0.04392 0.83239 [s.n.],2005 1.2086 0.03777 0.87017 [4 ROUGHAN M. SEN S, SPATSCHECK 0, et al. Class-of-service 0.84087 0.02628 0.89544 0.62026 0.01938 0.91583 mapping for Qos: a statistical signature-based approach to IP traffic classification[C]//Proc of IMC 04. Taormina, Italy: [s.n.I 3.3聚类及分类实验 DBSCAN算法对输入参数Eps、 min pis极为敏感,输入参[5] ZANDER S, UYEN T, ARMITACE G. Automated traffic class ifi 数的不同可能导致聚类结果大不相同。实验中取E为0.02、 cation and application identification using machine learning [C// 0.03、0.04, min pts为4、8、12。当 min pts=4时,聚类算法产 Prue of LCN'05. Sydney, Australia: [sIl], 2005 生的簇明显多于其他值所产生的簇,这说明 min pts越小越有6 ERMAN J, MAHANTI A, ARLITt M. Internet traffic identificatio 利于簇的形成形成了很多的小簇。图2是不同输入参数时的 using machine learning[ C //Proc of GLOBE COM06. San Francis- overall accuracy值,在 min pits=4,Ep=0.04时,取得最大值达 ev:[s,u.],2006 到94.38%。从图2中可以看到,当 min pts确定时,Ep增大, [7 DASH M, LIU Huan. Consistency-based search in feature selection overall accuracy的值也增大,说明 DBSCAN聚类算法对Es值 [J]. Artificial Intelligence, 2003, 151(1-2): 155-176 越大越容易形成聚类。同样,Eps、 min pts的取值不同对查准 [8] LIU Huan, SETIONO R. A probabilistic approach to feature selec tion: a filter solution [ C//Proc of International Conference on Ma 卒的值也有影响。图3给出的是BS=0.04时,E取不同值 chine learning. 1996:319-327 时各种应用类型的查准率。从图中可以看出,EPB确定,mnt91DAS.rles, wrappers and a boosting based hybrid for feature se Ps越小,各种类型的查准率越高。在Es取其他值时,情况极 lection C//Proc of the 8th International Conference on Machine 为类似。 Le arning. 2001: 74-81 1 10 YUAN Huang, TSENG SS, WU Gang-shan, et al. A twa-phase fea- 0.8 ture selection me thod using both filter and wrapperC//Proc of IEEE International Conference on Systems, Man, and Cybernetics 1999:132-136 192225283134 Eps=U U3 Eps=0. J4 [11 KOHAVI R, JOHN G H. Wrappers for feature subset selection J 图1流属性对应的特征值图2Eps、 MinPts取不同值的总精确度 Artificial Intelligence Journal, 1997, 97(1-2): 273-324 3.4特征选择前后实验结果比对 [12]俞研,黄皓。面向入侵检测的基于多目标遗传算法的持征选择 本文还对特征选择前和特征选择后的网络流量数据进行 「J1.计算机科学,2007,34(13):197-200 了实验,将结果进行比对,以说明特征选择的重要性。取 [13 WILLIAMS N. ZANDER 5, ARMITACE G. Evaluating machine Es=0.04、 min pis=4进行实验,实验结果如图4所示。实验 learning algorithms for automated network application identification Technical Report 060410B[R]. 2006 发现通过特征选择后,计算的维度降低,减少了计算机的开销,[141HALM. Correlation-based feature selection for machine learning 节省了大量的运算时间,而且查准率也有不同程度的提高。实 L D. Hamilton: Department of Computer Science, Waikato Universi 验结果表明,通过合适的特征选择算法实现降维,找到能够代 y,1998 表特征集信息较优的特征子集,能够很好地提高分类效率。 15] JOLLIFFE I T. Principal component analysis[ M]. 2nd ed.New York: Springer-Verlag, 2003 09 [16 ESTER M, KRIEGE H P, SANDER I, el ul. A densily-basedl algu 0. 0.8 rithm for discovering clusters in large spatial databases with noise 0 10个转 [C]// Proc of the 2nd International Confabulation Knowledge Disco 0.5 0. ala amirPts- dminPts-8c MinPts-12 17]邓河,阳爱民,刘永定,一种基于SVM的P2P网络流量分类方法 图3Es=0.04, minPts取不同 图4特征选择前后 值的查准率 实验结果对比 [J].计算机工程与应用,2008,44(14):122-126

...展开详情
试读 4P 论文研究-一种使用DBSCAN聚类的网络流量分类方法.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    img

    关注 私信 TA的资源

    上传资源赚积分,得勋章
    最新推荐
    论文研究-一种使用DBSCAN聚类的网络流量分类方法.pdf 6积分/C币 立即下载
    1/4
    论文研究-一种使用DBSCAN聚类的网络流量分类方法.pdf第1页
    论文研究-一种使用DBSCAN聚类的网络流量分类方法.pdf第2页

    试读已结束,剩余2页未读...

    6积分/C币 立即下载 >