论文研究-自适应蝙蝠算法优化的模糊聚类及其应用.pdf

所需积分/C币:15 2019-09-11 02:38:52 879KB .PDF
收藏 收藏
举报

随着信息网络技术的飞速发展,如何对规模庞大的网络数据准确高效聚类并合理应用显得尤为重要。虽然模糊C均值聚类算法(FCM)已具有良好的聚类效果,但其对初始化敏感,在处理高维大规模网络数据时易陷入局部极值问题还未被完全克服。为了解决这两个问题,提出一种分布熵和平均位距改进的自适应蝙蝠算法,利用该算法对模糊C均值的参数进行优化。在此之上,将自适应蝙蝠算法优化的模糊聚类应用于异常检测领域,提出了一种自适应蝙蝠算法优化的模糊聚类异常检测算法。理论分析和仿真实验表明,与前沿的粒子群优化FCM异常检测算法和FCM异常检测算法相比,该算法具有更好的聚类效果和检测性能。
l82019,55(7) Computer Engineering and4 pplications计算机工程与应用 E()=->n (8) 图2给出了根据公式(11)迭代更新惯性权重系数 )的变化曲线。随着迭代次数的增加,惯性权重系数 根据公式(7)和公式(8)中关种群分布熵和均匀逐渐变小并趋近于0。送代初期参数x(较大,使 分布熵的定义,将E()= 2一作为种群个体的分布熵⌒蝙蝠个体能够尽可能地离散分布在搜索空间中提高了 Elt 蝙蝠个体搜索全局最优解的能力。达代后期参数a 國值则对于任意迭代计算的蝙帽算法,运用公式(9)更逐渐减小、使偏个体有能力在局部最优解x附近寻 新惯性权重。 找叮能存在的全局最优解x,从而提高算法局部搜索 E(>E(, w=-(ustat -Wend)X+w 的精细度,使自适应蝙蝠算法拥有更好的寻优能力。 E()≤E(O,2=-( Wend)x'+ (9) m)(2A 其中,A 0.6 设为解空间最大长度,S为种群规模大小,n为 5 解空间个数,第i个蝙蝠的第d维坐标值表示为Pa,所 0.4 有蝙蝠第d维坐标均值表示为Pa,则平均位距如公式 (10)所示 0.1 Dmax(L=maxP 0100200300400500600700800900100 迭代次数 在此引入J Duax(t)-D 表示当前蝙蝠状态 图2惯性权重系数τ()更新趋势 的聚集度,将惯性权重系数调整按公式(11)进行调整。3自适应蝙蝠算法优化的模糊聚类算法 ()= e),≥a 3.1模糊C均值算法 J≤B 模糊C均值聚类算法(FCM)甽通过优化目标凶数 来获得与采样点对应的类中心的隶属度,进而得到数据 其中,m=0.95,cum=0.05,1+2=1且有1>0,2>0,的类属以实现数据聚类的目的。 t是当前迭代次数,tmx=1000,5是[0,1]之间的实数。 给定数据集x={x1,T2…xn,k为分类数量, 自适应蝙蝠算法的基本流程,如图1所示。 m(=1,2,…,k)为聚类中心,(x)是第个样本对应 开始 的第J类隶属度,公式(12)定义了求属度损失函数。 12 初始化种群、速度频率、响度和脉冲 调整频率并更新位置和速度 令J对m和A(x)的偏导为0,公式(12)极小值必 要条件如公式(13)和(14所示。 计算种群分布熵和平均位距 ;(x2)x 更新惯性权重 更新惯性权重系数 (x) (6-1) 严生局部最优解 否 t-1 u,(xi) 14 现局部最优百 ;-m7 是 迭代计算聚类中心m及求属度函数A(x),直到 否终止条件 聚类损失函数J收敛,完成模糊C均值聚类。 是↓ 2自适应蝙蝠算法优化的模糊聚类算法模型 输出全局最优解 为了克服进化算法优化的模糊聚类算法受初始屮 影响较大,易陷入局部最优解和面对高维数据尤法 图1自适应蝙蝠算法基本流程 得到最优的聚类的问题,通过提出的适应蝙蝠算法 崔芳怡,等:自适应蝙蝠算法优化的模糊聚类及其应用 2019,55(7) 来搜索局部最优解x*并将其应用到模糊C均值算法 表1 KDDCup99实验数据类型 上。算法过程可表示如下: 标识类型含义 其体分类标识 (1)初始化自适应蝙蝠算法频率∫,初始速度v和 normal 初始位置x等参数。 DOS拒绝服务攻击 back. land, neptune,pod, smurf, teardrop 监视和其他 (2)根据初始化蝙蝠种群数据和公式(7)和(10)计 Prob Ipsweep, nmap, ports atan 探测活动 算蝙蝠的分布熵和平均位距映射权值,并依据泙均位距 来白远程机器 ftp write, guess passwd,imap 和分布熵对重力权重系数进行修正,根据重力权重系数 R2L的非法访问 phf, spy, warezclient, warezinaster 更新下轮迭代屮蝙蝠的飞行速度和搜索位置x。 普通用户对本 (3)自适应蝙蝠算法经过迭代不断修正飞行速度U2地超级用户特 buffer_overflow,loadmodulc,perl,rootkit a+和搜索位置-,直判找到局部最优解x及斛个 权的非法访问 数k 由于 KDDCupg0%网络数据集中有大量的重 (4)利用步骤(3)得到的局部最优解x及解个数复数据,为了能更好地利用不同数据反应聚类效果,将 点,初始化模糊C均值聚类的聚类数k和聚类中心m。数据进行去重处理,表2显示了处理后的数据 (5)自适应蝙蝠算法在重力权重系数t()的影响下 表2 KDDCup99去重后数据 通过调节自身参数来迭代更新局部最优解x.及解个数 数据 Normal DOs Probe U2RR2L k,求属度(x)和聚类中心m不断更新,直到损失函 原始数据972773914584107521126 数J收敛并完成模糊C均值聚类。 删除数据94453368861977012 算法具体流程,如图3所示 余留数据8783254572213052999 KDDCup99数据集模拟的网络连接实例的41维特 开始 征中包含7个符号型字段和34个数值型字段。为了方 便仿真的进行,将数据按照公式(15)~(18)进行标准化 初始化蝙蝠种辟参数 归一化处理。 计算蝙堀的分布熵和平均位距映射权值 TAVG (15) 权值修正,根据权值更新飞行速度和初始位置 AVG;=(x1+x9y,…,x 当前最优解 STAD =+I1 -AVG1+32; -:+.+ 初始化聚类个数C和聚类中心m rmj-AVG, p (17 5到最大迭代次数吗 Inax(i)-min(i) 其,AVG为平均值,STAD为平均绝对偏差值。 得到最优参数m、(x) 42实验结果与分析 进行聚类,分类预测 42.1聚类效果分析 为了验证自适应蝙蝠算法优化的模糊聚类的有效 结束 性和聚类优势,使用 KDDCup99数据集中的DOS数据 图3自适应蝙蝠算法优化的模糊聚类算法流程 集进行模拟实验。为∫更直观地体现聚类结果,使用主 成分分析(PCA)降维处理后绘图分析,3种算法聚类 4仿真实验与结果分析 结果如图4所示 4.1数据预处理 由图4可以看出,在面对高维数据聚类时,FCM聚 为了评价自适应蝙蝠算法优化的模糊聚类效果类算法无法准确捕捉孤立点并对其聚类。 PSO-FCM算 及其应用在异常检测领城的检测效果,夲文选用了法和BA-FCM算法均能精确搜索全局最隹解同时捕捉 KDDCup99中10%的网络数据集进行实验。数据集将孤立点对其聚类。然而,面对类似数据,BA-FCM聚类 特定时间内的网络连接数据定义为TCP数据包序列,不算法比 PSO-FCM算法具有更高的聚类精度并且具有最 同的序列表示不同类型的异常特征。异常类型分为4佳的聚类效果。 大类23小类,4大类分别是:DOS、 Probe、R2L和U2R。 为了验证提出自适应蝙蝠算法中平均位距和分布 表1详细展示了 KDDCup9实验数据类型 熵对算法跳出局部极值能力的提升,对3种算法的迭 202019,55(7) Computer Engineering and4 pplications计算机工程与应用 0.1 0.3 0.0500.050.100.15 0.0500.050.100.15 0.0500.050.100.15 (a) PSO-FCM聚类算法结果 (b)FCM聚类算法结果 (c) BA-FCM聚类算法结果 图43种算法聚类的中心对比 代过程中的H标函数值进行了分析,分析结果如图5 所示。 C NmI (19 35 BA-FCM聚类算法 SC:gN 300 ICM聚类算法 SO-FCM聚类算法 ARI RI-ELRI (20 0 200 由表3可知,BA-ICM算法在4个数据集上的NMI 和ARI均大于其对比算法,实验结果表明,基于自适应 100 蝙蝠算法优化的模糊聚类算法具有最佳的聚类效果。 42.2异常检测效果分析 01002003004005006007008009001000 迭代次数 将自适应蝙蝠算法优化的模糊聚类应用于异常检 图5对比算法性能比较 测领域。使用公式(22)、(23)和(24)屮的检测率、误报 可以看出,FCM聚类算法的目标函数在送代过程和漏报率作为检验标准。 平稳减小,表明算法并没有能力跳出局部极值,聚类过 检测率=检测正确的样本数×100% 样本总数 (22) 程屮陷入局部极值的可能性较大;PSO-FCM聚类算法 收敛速度快,全局寻优性高于FCM聚类算法,降低了 误报率=误报为入侵样本的正常样本数×100(23 算法落入局部极值的可能性。但算法一旦落入局部极 漏报率=误报为入侵样的正常样本数x100(24) 值,仍没有能力跳出;BA-FCM聚类算法的目标函数在 迭代过程中出现梯度下降,每次下降代表其运用优化 取预处理好的20000条数据分为4组,每组5000 算法跳出极值。由此可见,BA-CM聚类算法不仅拥条数据。每组数据山大量正常数据和不同种攻击类 有很好的全局寻能力,且其具有跳出极值的能力,聚类型已知的异常数据(DOS、 Probe、R2L和U2R)则组成。 效果最佳 表4显示了算法在已知攻击类型情况下的异常检测 为了更直观地衡量聚类效果,使用公式(19)、(20)结果。 和(21)屮的聚类常见的指标归化互信息(NMI)四和 表4单一攻击下检测结果(攻击类型已知)% 调整兰德系数(ARI)对聚类结果进行进一步分析 评价 DOS Probe R2LU2R平均 这两种评价指标的取值范围为[0,1,聚类结果如表3 检测率85183983284484.2 所示。 BA-FCM误报率49487.53.15.1 表3对比算法聚类指标 漏报率3142341.53.1 算法 Dos Probe U2R R2L 为了验证算法模型在面对多种未知异常攻击时的 NMI0.510.440.690.56 BA-FCM 检测能力,取预处理好的20000条数据,其中攻击数据 ARI0.680.660.890.73 和正常数据混合。将数据随机分为4组,每组5000条 NMI0.260.270.390.29 ICM RI0.610.600.780.68 数据且每组山大量正常数据和攻击数据类型未知组 NMI0.310.280430.35 成。表5显小了算法在攻击类型未知情况下的异常检 PSO-FCM ARI0.640.650.870.72 测结果 崔芳怡,等:自适应蝙蝠算法优化的模糊聚类及其应用 2019,55(7)21 表5多种攻击下检测结果(攻击类型未知) 丁异常检测领域。该算法可以皃服模糊C均值算法对 算法评价Da!Data2Data3pata4平均初始化敏感的问题且面向高维海量网络数据时不易陷 检测率84.882.684.789.385.4 入局部极值。 KDDCup99数据集上模拟的4种异常攻 BA-FCV误报率39625.22444 击(DOS、 Probe、R2L和U2R)仿真实验表明,该方法 漏水率23383.3142 在具有很好的聚类效果的同时有效地提高了网络异常 将该算法和基于FCM异常检测算法,基于 PSO-FCM检测率,在安全领域具有广阔的应用前景。 异常检测算法进行了分析和比较,表6显示了对比算法 在已知攻类型情况下的异常检测结果表7显示了对参考文M 比算法在未知攻击类型情况下的异常检测结果 杨宏宁米判,谢丰,等入侵异常检测研究综述电子科 表6单一攻击F对比算法结果(攻击类型已知) 技大学学报,2009,38(5):587-596 算法评价一 DoS Probe R2L U2R平均 [2] Muller S, Lancrenon J, Harpes C, et al. A training-resis 检测率85.183983.2844812 tant anomaly dctection system[]. Computers Security BAⅠCM误报率49 2018,76:1-11 漏报率3.14.23.4 [3] Ding Y, Fu X Kernel-based Fuzzy C-Means clustering 检测率81.880.770.4 777.4 Igorithm based on genetic algorithm[J. Neurocomputing FCM 误报率91104835.6 2016,188:233-238 漏报率36875975.7 检测率82.577980.382880.9 [4 Yang M S, Nataliani Y Robust-Icarning Fuzzy C-Mcans PSO-FCM误报率6 9.87.94.9 clustering algorithm with unknown nuInber of clusters[JI 漏报率3.56.85.43448 Pattern Recognition. 2017,71:45-59 表7多种攻击下对比算法结果(攻击类型末知)% [5] Sharma R, Chaurasia S.An enhanced approach to fuzzy C-means clustering for anomaly detection[C]//Proceedings 算法 评价 Datal date2Data3Data4平均 of First International Conference on Smart Systcm, Inno 检测率84882.684789385.4 BA-FCM误报率3962522444 vations and Computing, 2018: 623-636 漏报率2.3383.3142.7 [6 Feng G, Zou X. Wu J.Intrusion detection based on the 检测率78.775.670.1812764 seIni-Supervised Fuzzy C-Means clustering algorithn[C]/ FCM误报率8.09413.798102 Proceedings of International Conference on Consumer 漏报率6.773 Electronics, Communications and Networks. 2012: 2667 检测率81475179.282779 2670 PSO-FCM误报率7.110.98.05.67.9 [刁]刘春苗,张惠珍求解无容量设施选址问题的混合蝙蝠算 漏报率447.152345 法[J计算机工程与应用,2018,54(22):28-34 从表6和表7可以看出,当攻击类型已知时,基于[8]马邦雄,叶春明基于蝙蝠退火算法的无等待流水线调度 FCM异常检测算法的检测率为774%,误报率为84%, 问题研究「数学理论与应用,2014(1):92-101 漏报率为5.7%;基于PSO-FCM异常检测算法的检测率[9]刘奕麟,安建成.优化的核模糊C均值聚类算法[微电子 为809%,误报率为7.2%,漏报率为48%;而本文算法的 学与计算机.2018(2):79-83 检测率为842%,误报率为5.1%,漏报率为3.1%。当攻0裴昌幸现代通信系统与网络测量M]北京:人民邮电出 击类型未知时,基于上CM异常检测算法的检测率为 版社,2008 764%,误报率为10.2%,漏报率为71%;其于 PSO-FCM[ 1 Feizollah A, Anuarn b, Salleh r. Evaluation of network 异常检测算法的检测率为79.6%,误报率为79%,漏报 traffic analysis using Fuzzy C-Means clustering algorithm 率为5%;而本文算法的检测为854%,误报率为44% in mobilc malware detection[]. Advanced Scicnce Letters 漏报率为2.7%。可以看岀,本文提岀的自适应蝙蝠算 2018,24(2):929932 法优化的模糊聚类异常检测模型与对比算法相比,在具[12)Ieew. Xiang D. Information- theoretic measures for 有更高的检测率的同时具有更低的误报率及漏报率,检 anomaly detection[ Cy/Proceedings of IEEE Symposiu on Security Privacy, 2001: 130-143 测效果更好。 [13 Shi Y, Peng X, Li R, ct al. Unsupervised anomaly detec- Lion for network llow using immune network based k- 5结束语 means clustering[ C]//Proceedings of International Confer- 针对高维海量数据的模糊聚类及其应用问题,提出 ence on Computer Scientists, Engineers and Educators 种自适应蝙蝠算法优化的模糊聚类算法,并将其应用 2017:386-399 222019,55(7) Computer Engineering and4 pplications计算机工程与应用 141 Krink l, Vesterstrom j s, Riget J Particle swarm optimi--[221付迎基于聚类技术的异常检测研究[D]郑州:解放军 sation with spatial particle extension[C]//Proceedings 信息工程大学,2012. of the Congress on Evolutionary Computation, 2002: [23 Calder A, Burton A, Miller P, et al. a principal compe 1474-1479 nent analysis of facial expressions [J]. Vision Research [15 Shusen Z, Longbo Z, Yali C, et al. Improved entropy 2001,41(9):1179-1208 basedcentreclusteringalgorithmyj.computer&Mod-[24MartiL,FansitchangoA,NavarroL,etal.anoMalydetec ernization,2014.13(3):53-56 tion with the voronoi diagram evolutionary algorithm M/ [16 Yang X S.A new metaheuristic bat-inspired algorithm] Parallel Problem Solving from Nature-PPSN XIV[S..] Computer Knowledge Technology, 2010, 284: 65-74 Springer International Publishing, 2016 「I71俞欢军,张丽平,陈德钊,等基于反馈策略的自适应粒子 群优化算法围浙江大学学报(工学版),2005,39(9) 5] Jing L, Ng M K, Huang J ZAn entropy weighting k mcans algorithm for subspace clustcring of high-dimcr 1286-1291 [18] Bezdek J C A /convergence theorem for the fuzzy ISO sional sparse data]. IEEE Transactions on Knowledge DATA clustering algorithms[M][S1.]: IEEE Computer Data Enginccring,2007,19(8):1026-1041 [26 Liu J, Mohammed J, Carter J, et al. Distance-based clu 「19于晓飞,蔫洪伟.自动确定聚类山心的势能聚类算法门 tering of CGH data[J]. Bioinformatics, 2006, 22(16): 1971 计算机科学与探索,2018,12():1004-1012. 20JⅫuZ, Yager RR. Sorne geometric aggregation operators[27]唐成华,刘鹏程.汤申生,等基于特征选择的模糊聚类异 based on intuitionistic fuzzy sets[J]. International Journal 常入侵行为检测[J计算机研究与发展,2015,52(3) of General Systems, 2006, 35(4): 417-433 718-728 21] Elkan c results of the Kdd)" 99 classifier learning门.[28]马占飞、陈虎年,杨晋,等,一种基于 IPSO-SVM算法的网 ACM SIGKDD Explorations Newsletter, 2000, 1(2): 63 终入侵检测方法[计算机科学,2016,45(2):231-236 (上接第15贞 resource re-allocation scheme for delay guaranteed vehicle [12] Abboud K, Zhuang WStochastic analysis of a single-hop to-vehicle network[C]/IEEE Vehicular Technology Con- communication link in vehicular ad hoc networkS[J] ference, Montreal, QC, Canada, 18-21 Scpt, 2017: 1-6 IEEE Transactions on Intclligcnt Transportation Systcms [18 Cao X, Liu L, Cheng Y, ct al. On optimal dcvicc-to-dc- ice resource allocation for minimizing end-to-end delay 2014,15(5):2297-2307 [13]Grzybek A, Seredynski M, Bouvry P Evalualion of dynamic in VANETsJ.IEEE Transactions on Vehicular Technol ogy,2016,65(10):7905-7916 communities in large-scale vehicular networks[ChACM 19 Jangsher S,Li Vo K Resource allocation in moving nternational Symposium on Design and Analysis of small ccll nctwork[.IeEe Transactions on Wireless Intelligent Vehicular Networks and Applications, 2013 Communications, 2016, 15(7): 4559-4570 93-100 20]Qi Y, wang H, Zhang L, et al. Optimal access mode [14 Yang T, Zhang R, Cheng x, et al. A graph coloring seleclion and resource allocation for cellular-VANET resource sharing scheme for full-duplex cellular- VANET heterogeneous networks[J]. IET Comrnunications, 2017 heterogeneous networks[C]EEE International Conference 11(13):2012-2019 on Computing, Networking and Communications, Kauai [21 Ashraf M I, Bennis M, Perfecto C, et al. Dynamic prox HI,USA,15-18Feb,20l6:1-5. imity-awarc rcsource allocation in Vchiclc-to-Vchicle [15 Iiang L,, Ii G Y, Xu W Meeting different Qos require (V2V)communications[C]pRoceedings of 2010 IEEE ments of vehicular networks: A D2D-based approach(cl Globecom Workshops, Washington, DC, USA, 4-8 Dec IEEE InternaLional Conference on Acoustics, Speech and 2017:1-6 Signal Processing, New Orleans, LA, USA, 5-9 March [22] Peng H, Li D, Ye Q, et al. Resource allocation for D2D- 2017:3734-3738 enabled inter-vchiclc communications in multiplatoons[C]/ [IG Liang L, Li G, Xu w Resource allocation for D2D Proceedings of ieee International Conference on Com enabled vehicular communications[J]. IEEE Transactions munications, Paris, france, 21-25 May, 2017: 1-6 on Communications, 2017, 65(7):3186-3197 [23 West D B. Introduction to graph theory M.Upper Sad- [17 Hung S C, Zhang X, Feslag A, el aL.An efficient radio dle River. NJ, USA: Prentice-Hall, 2000:1-50

...展开详情
试读 7P 论文研究-自适应蝙蝠算法优化的模糊聚类及其应用.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    weixin_38743481 如果觉得有用,不妨留言支持一下
    2019-09-11
    • 至尊王者

      成功上传501个资源即可获取
    关注 私信 TA的资源
    上传资源赚积分,得勋章
    最新推荐
    论文研究-自适应蝙蝠算法优化的模糊聚类及其应用.pdf 15积分/C币 立即下载
    1/7
    论文研究-自适应蝙蝠算法优化的模糊聚类及其应用.pdf第1页
    论文研究-自适应蝙蝠算法优化的模糊聚类及其应用.pdf第2页
    论文研究-自适应蝙蝠算法优化的模糊聚类及其应用.pdf第3页

    试读已结束,剩余4页未读...

    15积分/C币 立即下载 >