论文研究-DBSCAN聚类算法在数据业务监控中的应用研究 .pdf

所需积分/C币:7 2019-08-23 13:23:36 425KB .PDF
收藏 收藏
举报

DBSCAN聚类算法在数据业务监控中的应用研究,常琳,王芳,为快速有效的监控移动业务,通过剖析移动业务数据特点,提出采用基于密度的DBSCAN算法发现移动业务数据存在的异常,并对算法进行改
山国武花论文在丝 ()密度相连:存在样本集合中的ˉ点,如果对象到对象和对象都是密度 可达的,那么和密度相联 。如图所示 q 图密度相连 ()噪声或异常点():个基于密度的簇是基于密度可达性的最大的密度相连 对象的集合,不包含在任何簇中的对象被认为是异常点,也就是噪声。 聚类过程 计算:是聚类的半径,的大小直接影响聚类的结果,因此半径的确定 也至关重要。由于需要聚类的数据都是时间序列的数据,数据是有序的,因此半径的计 算加入了顺序因素,计算方法为:相邻两个数据距离的平均值 ()聚类过程: 通过检查数据集中每点的邻域来搜索簇,如果点的 邻域包含的点多于 个,则创建一个以为核心对象的慾。然后, 迭代 地聚集从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并。当 没有新的点添加到任何簇时,该过程结束 算法改进 传统的 聚类算法侧重找到密度可达的完整的个分类,而应用到异类挖掘的 算法侧重的是找到其中的异常点,并不关心非异常点具体属于哪个类别。因此,当 个数据为核心对象时,该对象邻域中的数据一定不会是异常数据,无需再次判断;当 数据为边界对象时,如果它邻域内含有核心对象,则它肯定不是异常点。 算法对比 传统的 找到找到核心点以后,需要聚簇该核心对象的密度可达对象,而改进 算法找到核心点以后可直接将该对象的邻域内的所有对象判断为非异常点; 对于边界对象,传统的 算法不做处理,而改进后的 算法需要对边界对 象的域内的对象做二次判断,若存在核心点将该边界点判断为非异常点。 算法 (数据集中存在未处理对象) 任取一未处理对象 是核心点 聚簇(密度可达对象) (是边界点) 不做处理跳出本次循环,寻找下一点 山国武技论文在丝 ()改进的 算法 (数据集中存在未处理对象 任取一未处理的数据点 (是核心对象) 聚簇(直接密度可达对象) (的领域中尚有对象未被考察过) 任取一尚未考察对象 (为核心对象) 为打上所属簇标记 (无簇标记) 为异常点 算法效率分析 传统 算法:算法找到核心对象后,再进步查找其邻域内的所有对象的 密度可达对象形成个聚类,而对边界对象则不做处理,对于较大规模的数据集边界对象所 占比例是很小的,算法对于绝大多数对象需要进行二次判断,而对极少数数据只做一次处理。 因此,算法的时间复杂度为 改进的 算法:只有当数据对象为边界对象时,才需进一步考察该邻域中的对 象。一般情况,需进行异常检测的数据集中,边界对象应占很小比例,所以结果基本应是对 数阶。因此,两算法从形式上虽都是 但当用于异常处理时,改进的 算法 则应偏向于对数阶 实验及结果 算法与控制图比较 实验 抽取彩信业务某省份的一组数据为: 控制图的参数定为,对比图、对比表如下: 山国武技论文在丝 12003Oo 200?OO 40O0O 200oo 200000 -4000OO 原始数据 平均值 上控线 下控线 图彩信业务控制图与 算法对比图 表彩信业务控制图与 算法结块对比表 参数 异常点个数异常点标号 控制图法 算法 结果分析:从对比图不难看出标红的点属于业务异常点,当控制图的参数为的 时候实验结果是相同的。说明 用于检测异常点是可行的。 调整控制图的参数 结果如下: 120O 6000OO HHI 40000C 20000 25000O 400000 原效差 平均值 |掉 下扌丝 图彩信业务控制图参数 结果分析:当控制图的参数为时,除了点,,是异常点外,点,,,, 也被判为是异常点,不难看出, 这五个点并没有明显的与其他数据不同。 因此对于此业务来说应该取大于的参数比较合适,通过对此业务的其他时间的数据 进行分析最终选择为 实验二: 抽取手机游戏业务某省份的一组数据为: 山国武技论文在丝 控制图法与 对比图、对比表如卜 20000000 叫50000000 1E+O8 —原薮扌 下均值 下控 手机游戏业务控制图参数 1 t 10000000 长长 5O00Ooo -E+08 于机游戏业务控制图参数 图彩信业务控制图与 算法结果对比图 表彩信业务控制图与 算法结果对比表 参数 异常点个数异常点标号 控制图法 控制图法 算法 结果分析:从对比图不难看出标红的点, 属于业务异常点, 算法都能找到。图中控制图的参数 此时应为参数偏大漏掉了异常点 当 参数设为的时候找到了个异常点。因此此业务的控刮图参数应该在或者一下 比较合适。通过对此业务的其他时间的数据进行分析最终选择为 从两个实验的结果不难看出对于不同的业务控制图的参数选择可能不同,因此对 于一个新増的业务需要对大量的历史数据进行分析才能确定的为多少最为合适。参数 的选择无疑增加了工作了,因此 算法解决了参数不好确定的问题。 改进的 算法与 算法比较 由」某些业务线的时间粒度精确到分钟,因此必须尽可能提高算法的效率。抽取 流量的数据进行实验,实验结果对比图如下(图) 20 DBSCA 15O 改进的 DBSCAN 130 数据对象 图 算法与改进的 算法效率对比图 山国武花论文在丝 从图中不难看出改进的 效率得到了大大提高,使得 算法可以应用 于时间粒度比较小、数据量大的业务。 结束语 结论:本文将基于密度的 算法应用于数据业务的监控中,解决了使用控制 图算法参数不好确定的问题,同时保证了告警的准确性。 结论:由于某些业务线吋间粒度小,使得数据量大大增加,传统的 算法运 行效率已经无法满足此类业务,因此本文改进了传统的 算法,大大提高了算法的 运行效率,使得 算法可以应用于数据量很大的业务。 參考文献 纪春芳,卓新建变点监测和控制图在数据业务监控中的应用科学技术与工 程 荣秋生颜君彪郭国强基于 聚类算法的研究与实现计算机应用 周水庚周傲英曹晶等一种基于密度的快速聚类算法计算机研究与发 展 刘卫宁曾婵娟孙棣华基于 算法的营运车辆超速点聚类分析计算机工 程 陈燕俐洪龙金达文等一种简单有效的基于密度的聚类分析算法[] 李筠宋凯姜学军一种基于网终索引的数据聚类算法计算机工程与应用 李伟雄基于密度的聚类算法研宄湖南湖南大学 潘晓莉基于数据挖掘的生物序列聚类硏究江苏:江苏科技大学 张晓基于密度的快速异常检测方法伊犁师范学院学报(自然科学版) 冯少荣肖文俊 聚类算法的研究与改进中国矿业大学学报 周水庚范脞周傲英基于数捱取样的 算法小型微型计算机系统 刘高军朱嬿基于数据挖掘技术的建筑企业仨用评价中国矿业大学学报

...展开详情
试读 7P 论文研究-DBSCAN聚类算法在数据业务监控中的应用研究 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    img

    关注 私信 TA的资源

    上传资源赚积分,得勋章
    最新推荐
    论文研究-DBSCAN聚类算法在数据业务监控中的应用研究 .pdf 7积分/C币 立即下载
    1/7
    论文研究-DBSCAN聚类算法在数据业务监控中的应用研究 .pdf第1页
    论文研究-DBSCAN聚类算法在数据业务监控中的应用研究 .pdf第2页
    论文研究-DBSCAN聚类算法在数据业务监控中的应用研究 .pdf第3页

    试读已结束,剩余4页未读...

    7积分/C币 立即下载 >