论文研究-基于最优ABC-SVM算法的P2P流量识别.pdf

所需积分/C币:7 2019-07-22 21:43:16 1.08MB .PDF

目前对等网络(peer-to-peer,P2P)流量的识别是网络管理研究的热门话题。基于支持向量机(support vector machine,SVM)的P2P流量识别方法是常用的P2P流量识别方法之一。然而SVM的性能主要受参数和其使用特征的影响,传统的方法是将SVM的参数优化和特征选择问题分开处理,但是难以获得整体性能最优的SVM分类器。针对以上问题进行了研究,提出了一种基于最优人工蜂群算法与支持向量机相结合的P2P流量识别方法。利用人工蜂群算法,将SVM的参数和特征选择问题视为最优化问题同步处理,可以获得整体性能最优的参数和特征子集。在真实的P2P数据上的实验结果表明,提出的方法具有很
584 计算机应用研究 第35卷 sVM使用K折交叉验证法来计算适应度函数,使用适应度评[0.4,0.9];ABC算法中食物源设置为35,限制次数设置为 估函数来计算每个食物源的应度值。 50。因为上述算法都属于随机搜索算法,为了公平地对比它们 b)作为采蜜眸类型时,初始解x,根据式(8)来产生新的的优化能力,在实验的过程中,GA、PSO和ABC算法都分别完 食物源,并记录下来。如果υ的适应度值大于x的适应度值,成了20次测试。 则把v赋值给x;,否则不改变。 3.2实验评价标准 c)作为观察蜂类型时,車新计算x;的适应度值,并用式 分类正确率(锖误率)是分类器能够正确(错误)分类的測 (9)来选择食物源,记录下全局的最优解和对应的适应度值。 试集中样本数和样本总数之比。 d)判断是否达到侦察蜂条件,如果达到,则用随机产生的 新食物源来替换最差的食物源。 t正[分类的样本数x100% e)判断是否达到终止条件,如果达到,则获得最优特征子33结果和分析 集和SVM参数;否则,重复上面的步骤,开始新一轮的计算。 为了验证该算法的有效性,把GA、PSO和ABC算法各自 归一化数据集 运行20次后,运行结果如表3所示。其中 best value表示最高 的分类正确率; worst va-e表示最差的分类正确率; verage va 测试集 训练集 采蜜蜂搜索新解 lue表示平均的分类正确率; slandard deviatior表示标准方差。 持征选择信息 表3三种算法在P2P数据集上的分类结果 选中的特征子集 worst value average value 算法 训练sVM,计算适应度函数 SVM参数 deviation y7.63393 观察蜂诜择食物源 98.2143 97.3214 83924 ABC 98.9197 97.8890 98.41116 0.72559 达到终止条 根摒表3结果显示可知,相对于GA和PSO算法,本文提 出的ABC算法具有最高的分类正确率和平均正确率,并且其 获取最优特征子集和参数 标准方差是其中最小的,这说明ABC算法的优化性能相对于 图IABC一体优化SvⅥ算法流程 GA、PSO算法更好。 三种算法分别运行20次后的平均选择特征数如表4 3实验结果与分析 所示。 3.1实验数据与方法 表4三种算法的平均特征优化结果 为∫验证本文提岀的基于人工蜂群算法和最优支持向量 数据集名称 算法 原始特征数平均选择特征数 GA 机的P2流量认别方法的有效性,本文采用K折交义验证法 P 来进行评价。釆用 MATLAB语言编程实现本文算法。实验使 ABC l1 用的P2P数据是从湖北1业大学网终路由端口收集来的,总 从表4中可以看到,运行20次后,ABC从原有的13维特 共使用了近300条样本数据,每一条样本数据流包含11个征向量中最优选择后的平均选择特征维数为31,低于GA和 特征,其中200作为训练样本,1000作为测试样本,如PO的平均选择特征维数,有效地降低了参数和分类计算的特 表2所示。 征维数,提高了实时分类的计算速度。 表2P2P流量特征描述 种算法运行过程中典型的进化曲线如图2-4所示。图 特征 意义 中X轴表示的是迭代次数,Y轴表示的是适应度值;两条曲线 流量数据持续时间 分别代表的是最好的适应度值和平均适应度值。从图2-4中 IP/IP端口 TEP-IO ratio 上下行流量中TCP数据包的比率 的讲化过程可以看到,ABC算法在搜索最优解过程中终历了 UDP-IO maliu 上下行流量中UDP数据包的比率 三个阶段,迭代到第10次时,ABC算法的适应度值相比于 lolal-I0 上下行流量比率 GA、PSO算法的都高,整体优化性能是三种算法屮最好的。 流量数据的平均速度 hesc=11.5289g=242796/m1a0 acuracy982143% avg-packets 流量数据包的平均大小 TCP/UIDP-pra TCP和UDP数据包平均大小的字节比 ;……--;-…;…-… CP/UDP.bl TP和UDP流量的字节比 97.5 流量中TCP的比例 UDP-pro 流量中IDP的比例 为了使所提出的模型更具有说服力,本文实现了基于遗传 算法、粒子群算法一体优化的最优SVM方法.并进行了比较和 95.5 分析。所用算法的参数设置为:算法的初始种群都设置为40 三种算法都迭代50次后结束。此外,GA中的交叉因子设置为 0.4,变异囚子设置为0.01;PSO算法中的局部搜索能力参数 051015203 404550 设置为1.5,全部搜索能力参数设置为1.7,惯性权重值设置为 图2GA一体优化SVM进化图 第2期 王春枝,等:基于最优 ABC-SVM算法的P2P流量识别 585 hest n =7.6.374 hest 6=23.71 13 hest f=0l I(( I(I()M)CY areuracy=9%.2143% identification based on traffic characteristies [C]//Proe of Inter tional Conference on Multimedia Technology. 2011: 5032-5035 3]董仕,王岗。基于UDP流量的P2P流媒体沆量识别算法研究 97 [J].通信学报,2012,33(12):25-34 [4]张翰.基于DPI技术的PP流量检测系统设计[D].北京:北京 邮电大学,2012 [5 Zhang Wen. Peer-le-Peer Traffic anti-idlentificalion based on packet sageliness size LC_//Proc of Intenational Conference on Computer Science and Network Technology. 2011: 2277-2280 01520253035404550 L 6 Kim J, Shah K, Bohacek S. Delecting P2P traffic from the P2P flow 图3PO一体优化SVM进化图 graph [C//Proc of the 7 th International Wireless Communications best c=0.0028941 best g=0. 005473 bcstf-00000110100 bcst CV accuracy=98.91977 and Mobile Computing Conference. 2011: 1795-1800 98. [7]彭建芬.P2P沆量识别关键技犬研究[D].北京:北京邙它大学, 2011 975 [8 Xu He, Wang Suoping, Wang Luchuan. A novel p2P traffic identif Ition model based on machine learning C ,/proc of the 2nd I 965 national conference on Information science and engineeri 10 fitness 「9]许埤,陈鸣,魏祥麟.基于隐马尔可夫嫫型的PP流识别技术 「J1.通信学报,2012,33(6):55-63. algebra 10 Jin Fenglin, Duan Yifeng. A P2P flow identification model based on 图4ABC体优化sVM进化图 Bayesian network C //Proe of the 7th International Conference on 4结束语 less Communications, Networking and Mobile Computing. 2011 本文提出了一种基于人工蜂群算法和最优文持向量机进[11 Du Jiang, Long tao.P2 P traffic identification research based on the 行P2P流量识别的方法。SVM的参数对最后结果的分类准确 SVM[C//Proc of the 22nd Wireless and Optical Communication 率有很大的影响,并且由于特征与参数之间的互相影响,进而 Conference. 2013. 683-686 也会影响最后结果的分类准确率,所以在本文屮使用ABC算[12] Chen hongwei, Zhou xin, You Fangping,etal! Study of double 法对特征选择和参数进行同步优化,确保了分类结果的准确 characteristics-based SVM method for P2P traffic identification [c]// 度。它把特征和参数均以二进制形式编码到食物源中,并且结 Proe of the 2nd Intemational Conference on Networks Security Wire- 合ARC算法的全局搜索能力,改善∫GA和PO出现局部最 less Communications and Trusted Computing. 2010: 202-205 优值的缺陷。 [13]谭骏,陈兴蜀,社敏,等.基于自适应BP神经网络的网络流量识 本文以真实校园PP网络流量数据作为研究对象,验证 别算法[J].电子科技大学学报,2012,41(4):580-585 了该模型的分类性能。实验结果表明,本文使用最优ABC[14Gmgi, Wang Wenjun, Wany Pan,“a.P2 P Traffic identifica- SVM算法来对P2P网终流量数据进行分类识别,其效果相比 ion method lased on an improvement incremental VM learming algo- 于使用GASⅤM、PSOSⅤM这两种算法具有更高的正确率和更 rithm C]//PIoc of InteRnational Symposium on Wireless Personal 快的效率。 Multimedia communications. 2014. 174-179 本文提出的基十人工蜂群算法和最优支持向量机进行 L15」刘鲭涫,陈λ明,刘小方,等.基于遗传算法的SⅤM参数组合优 化冂.汁算机应用与软件,2012,29(4):94-96,100. P2P流量识别的方法,虽然相对于GA-SⅥ、 PSO-SVⅥ等算法 具有一定的优势,但是以下问题还需要作进一步的研究 [16 Tan Jun, Chen Xingshu, Du Min. A novel p2P identification algo- rithm based on genetic algorithm and particle swarm optimization a)在特征参数整体优化的基础上,引进集成学习技术,以 进一步提高SVM的分类精度。集成多个分类器的结果往往是 [C.//Proc of the 3rd International Symposium on Parallel Architec- tures, Algorithms and Programming. 2010: 22-29 优于使用单个分类器的结果。 [17 Wang Ting, Wang Heng, Xie Haofei. Research on networked ayn- b)后期会考虑把不同的分类器进行集成,以进一步提高 chronization eontrol model by the combination of genetic algorithm and 分类精度。 support vector machine C 1//Proc of the 2nd International Confe 参考文献 rence on Computer and Automation Engineering. 2010: 23 1-234 I 1 Reddy J M, Hota C. Heuristic-based real-time P2P traffic identifica-[ 18 Li Suzhen, Liu Xiangjie, Yuan Cang. Supervisory predictive contr tion [C]//Proc of International Conference on Emerging Information ased on least square support vector machine and improved particle Technology and Engineering Solutions. 2015: 38-43 swarm optimization[ C]//Proe of lese Control Confe 2 Wang Jingyu, Zhang Jiyuan, Tan Yuesheng. Research of P2P traffic rence.2014:1955-1960.

...展开详情
试读 4P 论文研究-基于最优ABC-SVM算法的P2P流量识别.pdf
img

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐
    论文研究-基于最优ABC-SVM算法的P2P流量识别.pdf 7积分/C币 立即下载
    1/4
    论文研究-基于最优ABC-SVM算法的P2P流量识别.pdf第1页
    论文研究-基于最优ABC-SVM算法的P2P流量识别.pdf第2页

    试读已结束,剩余2页未读...

    7积分/C币 立即下载 >