论文研究-使用机器学习算法分类P2P流量的方法.pdf

所需积分/C币:10 2019-07-22 20:34:36 288KB .PDF

P2P应用的快速增长,带来网络拥塞等诸多问题,而传统的基于端口与有效载荷的P2P流量分类方法存在着很多缺陷。以抽取独立于端口、协议和有效载荷的P2P流的信息作为特征,用提出的基于ReliefF-CFS的方法选择流的特征子集,研究使用机器学习算法对P2P流量进行分类的方法,也研究了利用流的前向N个报文的统计信息作为特征,分类P2P流量的方法。实验结果显示提出的方法取得了较好的分类准确率。
3470 计算机应用研究 性可分,设训练样本为 3.3基于KNN的P2P流量分类器 =t(x1,y1},…,(x1,y),…,、xn,yn)}c(x,Y)M (6) KNN算法是计算待分类流到每个样本流的距离,得到与 其中:∈X=R,y∈Y=(+1,-1),i=1,…,M。问题线性可待分类流最近的k个样本流,然后,寻找k个样本流中占多数 分,表明存在着超平面(mx)+b=0使得训练点中的正关输样本流的类别,则待分类流就属于该类别。在本文研究中,采 入和负类输入分别位于该超平面的两侧构造并求解变量a和用欧几里德距离计算流F和F之间的距离ds(F,F),计算 b的最优化问题 式如式(13)所示。 mIn 22 12 (7) dis(F,F)=∑(0-f s.t.y(v,x)+b]≥1 求得最优解v,b;构造分划超半面(w·x)+b=0,由此 当给定一个类别未知的待分类的流F,基于KN的P2P 构造决策函数 流量分类器搜索训练样本流空间,计算各训练样本流与F流 f(x)=sgn((w. x)+b) (8)的之间距离,找出最接近F流的k个训练样本流。这k个训 对于线性不可分的情形,通过选择好的非线性映射函数练样本就是流F的最近邻;然后,对k个训练样本流的类别进 (核函数)将训练样本流哄射到一个高维特征空间中,在高维行投票,获得占多数训练样本流的类别,即F流的类别 特征空间中构造线性判别函数,来实现原空间中的非线性判别4实验结果与分析 函数,保证机器有较好的推广能力,同时使用核函数巧妙地解 决了维数灾难问题,其算法的复杂度与样本维数无关。在原来4.1实验数据的获取与处理 的研究中采用SVM算法对四种网络流量进行分类,取得了 在局域网内使用多台PC机,每台PC机运行单独的P2P 较好的分类效果。文仍使用SVM中一对一的多类分类方应用程序,通过路出器的端口镜像获取数据,获取了八种PP 法,共构造K*(K-1)/2个二类分类器,结合SVM的CSVC应用类型的原始数据,只获取每个数据报文的前128Be,如 类型和径向基核函数(RBF),并搜索CSVC的最优分类参数C表2所示。把获取的原始网络报文数据保存为DMP文件,合 和RBF的最优分类参数y 成流时依据报文的P地址自接标注流的P2P应用类型。 3.2基于C4.5决策树的P2P网络流量分类器 表2获取的P2P数据集 决策树模型( decision tree)是一种从无序、无规则的训练 应用类型 数搪集/GB 应用类型 数据集/GB 样本流中推出决策树表示形式的分类方法,其每个分支代表 10.29 100Bay Fasttrack Poco 2.30 个测试输出,而每个叶节点代表类别,C4.5算法是 quinlan eDonkey 9.28 Thunder 4.31 对I3算法的扩展,利用C4.5的算法来构建PP网络流量 nutella Flashget 分类器,决策树的构造步骤如下 4.2特征选择实验 a)计算训练样本集F的总信息熵。样本集F的总信息熵 的计算式为 从4.1节的数掂中,抽取各类流共计2000条流,作为特 征选择实验,冉用基于 Relieff算法的特征选择实验,得到流的 erpy(F)=-∑plg2 各属性(前20个)权值W如表3所示。 其中:pk是P中属于类别C的比例。 表3基于Rlie算法得到的属性权值W 的取值通过属性f可将样本集F划分为n个子集,如果/被037/。权值征序号权值。特征序号 b)计算每个属性的信息熵。假设属性f上共有v个不同 权值特征序 011074 0.001217 0.000931 选为决策属性,则这些∫集将对应该节点的不同分支。则根据 0.057323100.00977 0.006545 0.000858 ∫划分样本的信息熵为 0.036896 11 0.005292 0.000806 entropy(f)=2 Fv entropy(F (10) 0.005158 0.00079 0.021586 0.004265 0.000739 9 其中: values(f)是属性f所有可能值的集合;F是F中属性f 0.001915 的值为v的子集 在训究中,属性x(=1,2,…,N)的阈值设置为0.001,则 c)计算该属性的信息增益率。用属性f划分样本集F后得到初步的特征集的编与集为6,0,12,183,34.32,9.5 所得的信息增益值为 21,31,3,22,1}。这些将作为基于CFS方法的初始特征子集。 gain(,)=entropy( F)-entrapy(,) 在基于CFS方法的特征选择实验中,采用 Bestfirst搜索策 信息增袷率为 略结合正向搜索方向搜索得到的较优特征子集作为最后的特 gain Ratio(/,)=gain(i)/splitInfo(f,) (12)征选择结果。最优特征子集的编号集合为{1,3,5,6,7,8,9 其中: splitIng()=-2(|Fn/FDog,(|F||F|。 10,11,12,21,22,31,32,33,34}。 d)依据计算的每个属性的信息增益率,把信息增益率最4.3分类实验结果 大的属性作为分支节点,节点的每个可能取值对应一个子集, 在实验中,从八种P2P协议中各抽取2000条流形成样本 对样本子集递归地执行b)e),直到生成决策树。 流集合F,使用SVM、(4.5和K\N三种机器学习算法,各分类 在生成决策树后,采取剪枝技术来纠正过度拟合问题,即器的参数分别如下: 剪去树中不能提高预测准确率的分支。通过设置每个叶节点 a)基于SWM的PP流量分类器参数:核函数是RBF函 的最少实例数(MNI)来适当控制树的规模,设置置信囚子数,优化学习得到C=512,y=2.0 (CF)确定树的修剪程序。 b)基于CA.5的P2P流量分类器参数:MN=4,CF=0.2。 第9期 刘永定,等:使用机器学习算法分吳PP流量的方法 3471· c)基于KN的P2P流量分类器参数:k=5 参考文献: 实验中,使用5折交叉验证方式进行分类器构建与测试。[1SENs. WANG Jia. Analyzing peer-Lo-peer Uralic across large networks 首先对未进行特征选择和已进行特征选择的样本集进行 [JI.IEEE/ACM Trans on Networking 2004.12(2): 219-232 分类器的构建与测试,并用准确率、训练与测试时间两个标准2] GERBERAND A, HOULE J, NGL YEN H,etal. P2P the gorilla 进行评估,结果如表4所示。 the cable[ C]//Proc of National Cable and Telecommunications Asso 表4特征选择与否的性能评估 ciation( NcTA), National Show. 2003. 评估标准 [3 SEN S. SPATSCKECK O, WANG D. Accurale, sealab,le in-network 学习算法 准确卒 训练与测试时间 identification of P2P traffic using application signatures//Proc of 未先择已选择未选择已选择 the 1 3th International World Wide Web Conference 2004:512-521 SVM 88.672387.8574 176 [4]邓河,阳爱民,刘永定.一种叁于swⅥ的P2P网络流量分类方 92.965591.8605 法[J].计算机工程与应用,2008,44(14):122-126 86.9996 415 264 I5 LIU H, SETIONO R. A prababilistic approach to feature selection 同时,研究了统计流的所有报文的特征形成的样本集与只 [C]//Proc of International Conference on Machine Learning. 1996 统计流的前50、100、150、200(指在进行流的特征统计时,只统 319-327 计具中最先到达的个数,而不统计后续到达的报文)个报文的[6]DAss.rile, wrappers and a boosting based hybrid for feature se 特征形成的样本集,在未进行特征选择和已进行特征选择的情 lection[ C//Proc of the 8th International Conference on Machine 形下分类,结果如图1和2所示 Learning. 2001. 74-81 98 8 [7] YUAN Huang, TSENG SS, WU Gang-shan, et al. A two-phuse fea 94 94 ture selection met hod using both filter and wrapper[ C]//Proc of 92 一-5VM 208 IE EE International Conference on Systems, Man. and Cyhermetics C4.5 一一KNN 1999:132-136 所有50100150200 所有50100150200 I 8 KOHAVI R, JOHN G H. Wrappers for feature subset selection JI 双向包个数 双向包个数 图1未进行特征选择的只统计前图2进行特征选择的只统计前 Artiticial Intelligence Journal, 1997, 97(1-2): 273-324 N个报文的分类准确率比较 N个报文的分类准确率比较 [9 KONONENKO I. Estimation attributes: analysis and extensions of RE 从实验结果可以看出:a)对三种机器学习算法的性能评 LIEF[ C ]//Proc of European Conference on Machine Learning 估,C4.5算法的性能是最好的;b)结合两种特征选择方法选择 1994:171-182 出的特征子集较好地保持分类准确率的同时,在很大程度上降 I10 HALL M A. Correlation-based feature selection for discrete and nu meric class machine learning[ C]//PrDc of the 17 th International Con- 低了分类器的训练与测试时间;e)只统计流的前部分报文形 ference on Machine Learning. San Francisco Morgan Kaufmann Pub- 成的样本能够达到很好的分类准确率,说明这些分类器可以用 shers.2000:359-366 于在线流的实时分类。 [I] MITCHELL T M.机器学习[M].曾华军,张银奎,等译,北京: 机械工业出版社,2003 5结束语 [12] BOSER B E, GUYON L, VAPNIK V. A training algorithm for opti- 本文研究了产生抽取独立于端口协议和有效载荷的P2P mal margin classifiers[ C]//Proc of thp 5th Annual Workshop on 流的特征的方法,提出了基于 Relieff-ces的特征选择方法,研 Computa-tional Learning Theory. [S.1.]: ACM Press, 1992:144- 究了儿种基于机器学习算法的P2P流量分类分类器,实验表 明,分类器具有较好的分类效果。对统计流的前部分报文的情 3 QUINLAN J R. C4. 5: Programs for machine learning M. San Ma 况下,分类器的准确率,这表明分类器可以用在实时流的分类 [14 QUINLAN J R. Induction of derision tree[ j]. Machine Learning 应用中。 1986(1):81-106 (上接第3467页)识而不断改进。如果出现一种新的特征参数, from three views of the Internet topology. CAIDA-TR-2005-02LR] 使得原先算法的生成图与实际图不相符,则必然会产生新的网 2005 络建模方法来适应新的网络特征。 [6 BARABASI A. ALBERT R. Emergence of scaling in random net- 参考文献 works[J」. Science,1999,286(5439):509512 [7] ALBERTR BARABASI A L Topology of evolving networks: local events L 1 FALOUTSOS M, FALOUTSOS P, FALOUTSOS C. On power law rel and universality[J. Phys Rev Lett 2000, 85(24): 5234-5237 tionships of the Internet topology [ C//Proc of ACM SIGCOMM Co [8 DOROGOVTSEV SN, MENDES J F F. Evolution of networks[ JI uler Cutnmunicalion Rev iew. New York: ACM Press. 1999. 251-262. 1 2 SUBRAMANIAN L, ACARWAL S, REXFORD J, et al. Characteri Adv phys,2002,51:1079-1187 zing the Internet hierarchy from multiple vantage points[C]//Proe of [9 ZHOU Shi. Understanding the evolution dynamics of Internet topology IEEE INFOCOM. New York, IEEE Press. 2002. 618-62 [J]. Phys Rev E,2006,74(1):016124 [31 SOFFER S N, VAZQUEZ A. Network clustering coefficient without 10 SAGY B, MIRA G, A VISHAI W. An incremental super-linear prefer egree correlation biases[ J. Phys Rev E,2005,71:057101 ential Internet topology modell c// Proc of the 5th Annual Passive [4 ZHOU 5, MONDRAGON R J. Structural cons traints in complex net and Active Measurement Work shop. 2004: 53-62 works. New Journal of Phys, 2007, 9(172): 1-11 [1]张昕,赵海,李超.一种基于多项复杂特征的 Internet路由器拓扑 [5 MAHADEVAN P, KRIOUKOV D, FOMENKOV M, et al. Lessons 建模方法[J].电子学报,2008,36(1):57-63.

...展开详情
img

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐