阈值法无法具备监测重点链路局部流量尖峰或局部传输异常的能力,必须引入
动态自适应的局部流量监测预警机制捕捉细粒度的流量尖峰或局部传输异常。
广域网链路汇聚流量是由途径节点汇入的大量细分传输流量组成,将流量数据
按一定的映射关系转换成一定形式的数据点的集合,则根据数据流的行为特征
来看,大量细分特征流量所对应的数据点应为正常数据点,而局部流量尖峰或局
部传输异常所代表的数据点在特征分类中应为偏离数据点。根据连续随机分布
原理,汇聚流量的数据点分布应符合正态分布,这些数据集中大部分数据点应为
正常数据点,则偏离大部分数据点的个别数据点则是偏离数据点,偏离度较多的
数据点一般并非因为随机因素产生
[2]
。因此,通过在给定规模的数据集中快速找
出这些偏离数据点,即可通过数据点对应的细分流量,将其快速判定为链路汇聚
流量中的局部尖峰或局部传输异常,而不受当前流量占链路传输负载能力的比
例影响,解决了固定阈值预警方法的缺陷。
1.2 离 群点快速检测 算法
离群点的通常定义是指在一个时间序列中,远离序列一般水平的极大值或
者极小值。离群点检测是一种在数据挖掘领域广泛使用的重要技术,可以在较
大规模的复杂数据集中剔除异常噪音,被广泛应用在网络监控、故障检测、数
据清洗、垃圾过滤等领域。当前离群点检测的方法主要分为两类,第一类是传
统类型,包括基于统计模型、基于距离模型、基于密度模型、基于偏离模型
[3]
;第
二类一般通过人工智能和模式识别进行检测
[4]
,主要包括基于模糊粗糙集
[5]
和自
组织映射等
[6]
。基于统计模型的方法对数据集全貌特征掌握度要求较高,基于距
离模型的无法聚焦局部突变,Breunig 等 人提出了基于局部密度的离群点检测
方法 LOF
[7]
,但此方法对分布在群簇边缘的数据点存在一定的误判。Jin W.等人
提出了 INFLO
[8]
算法,通过在计算局部异常因子的同时考虑对象的 k-近邻和反
向 k-近邻解决误判问题,但因为需要频繁查找对象的近邻导致算法时间复杂度
较高。
LOF 算法时间复杂度过高,且计算对象的局部异常因子时只考虑了 k-近邻
对象,当对象分布存在两个及以上簇时,LOF 算法容易将处于簇边缘的正常对象
误判成异常对象。如图 1 中的两个密度不同的 C1 簇和 C2 簇,p 点是处于 C2
簇中的正常对象,p 点是 q 点的 k-近邻,q 点是 p 点的反向 k-近邻,但是按照 LOF
算法的计算方式极易误判 p 点为异常对象。
评论0
最新资源