没有合适的资源?快使用搜索试试~ 我知道了~
基于密度的聚类是聚类算法中的一种,其主要优点是可以发现任意形状的簇,但处理大数据集时效果不佳,为此提出了一种改进的算法M-DBSCAN,保留了基于密度聚类算法的优点,同时克服了以往算法不能处理大数据集的缺点。实验结果证明,M-DBSCAN聚类算法在聚类质量及速度上都比原DBSCAN有较大提高。
资源推荐
资源详情
资源评论
一种改进的基于密度的聚类算法一种改进的基于密度的聚类算法
基于密度的聚类是聚类算法中的一种,其主要优点是可以发现任意形状的簇,但处理大数据集时效果不佳,为
此提出了一种改进的算法M-DBSCAN,保留了基于密度聚类算法的优点,同时克服了以往算法不能处理大数据
集的缺点。实验结果证明,M-DBSCAN聚类算法在聚类质量及速度上都比原DBSCAN有较大提高。
摘摘 要:要: 基于密度的
关键词:关键词: 聚类;
聚类就是把相似的东西归为一类,有明显区别的事物分属在不同的类别中,方便处理的一种数据挖掘的方法。目前,它已
成为数据挖掘研究领域中一个非常活跃的研究方向。聚类分析技术在模式识别、数据分析、图像处理和市场研究等许多领域得
到了广泛的应用。
迄今为止,人们提出了许多聚类分析的算法,其中基于密度的聚类算法能够发现任意形状的簇,应用较为广泛。其主要思
想是:只要临近区域的密度(对象或数据点的数目)超过某个阈值就继续聚类。也就是说,对给定类中的每个数据点,在一个给定
范围的区域中必须至少包含某个数目的点。这样的方法可以用来过滤噪声和孤立点数据,发现任意形状的类。
基于密度的聚类算法主要有:DBSCAN(Density Based Spatial Clustering of Applications with
Noise),OPTICS(Ordering Points to Identify the Clustering Structure)等。DBSCAN算法利用类的高密度连通性可以快速
发现任意形状的类,但是当处理的数据量较大时,一般的聚类算法不能满足
1 DBSCAN算法算法
MARTIN E等人提出的DBSCAN算法将具有足够高密度的区域划分为一类,并可以在带有噪声的空间数据库中发现任意形
状的聚类[1]。
DBSCAN算法提出了一些新的定义:
DBSCAN算法是基于密度的聚类算法,它将类看作是数据空间中被低密度区域分割开的高密度对象区域。在该算法中,
发现一个聚类的过程是基于这样的事实:一个聚类能够被其中的任意一个核心对象所确定。其基本思想是:考察数据库D中的
某一个点P,若P是核心点,则通过区域查询得到该点的邻域,邻域中的点和P同属于一个类,这些点将作为下一轮的考察对
象(即种子点),并通过不断地对种子点进行区域查询来扩展它们所在的类,直至找到一个完整的类。然后,依此过程寻找其他
的类。最后剩下的不属于任何类的点即为噪声。DBSCAN算法可以挖掘任意形状的聚类,对数据输入顺序不敏感,并且具有
处理异常数据(噪音)的能力。对具有N个样本的数据库,该算法的时间复杂性为O(NlogN)。
2 M-DBSCAN算法算法
2.1 在线聚类在线聚类
由于处理数据量较大,一次性处理完毕不但运算量大,复杂度高,而且对存储空间的需求量大,因此本文提出一种在线式
聚类算法,可以动态增加聚类数目。
算法的原理是:随着输入样本数据的不断增加,实时动态地增加聚类个数或调整聚类中心及聚类半径,在形成的任意一个
聚类中,聚类中心与属于此聚类的样本点的相似度都不小于一个阈值dthr,dthr的选取将直接影响到聚类数目。
将在线式聚类算法引入后,算法的描述如下:
(1)积累一小段时间内的数据,进行归一化压缩,进行相似度计算,得到相似度矩阵;
(2)通过对相似度矩阵进行比较分析,找出邻域密度最大的数据点作为第一个初始类的中心c
1
;
(3)对尚未加入此类的数据点x
i
,比较与类中心的距离是否大于给定阈值dthr,若是,则加入此类,否则创建一个新类c
j
;
(4)处理完这一小段数据后,对新到来的一个数据点进行与(3)相同的做法,确定其类别;
(5)直到没有数据到来为止,输出聚类结果。
2.2 改进的算法改进的算法
DBSCAN算法在对类的划分时采用的方法是:比较此数据点到各类中心的距离,若小于某阈值,则属于此类。可见阈值
的选择直接影响类的划分及类的数目。但是如图1所产生的聚类模块[3]所示,这种方法带来的问题就是:距离近的不一定属于
同一类,在阈值半径内的不一定属于同一类。
资源评论
weixin_38743235
- 粉丝: 10
- 资源: 941
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- com.harmonyos4.exception.PowerFailureException(怎么解决).md
- 使用 Python 字典统计字符串中每个字符的出现次数.docx
- com.harmonyos4.exception.SystemBootFailureException(怎么解决).md
- ERR-NULL-POINTER(解决方案).md
- 计算机网络-socket-inet-master.zip
- Java编程学习路线:从基础到实战全攻略
- python爱心代码高级-6.完成链表类-大唐不夜城!.rar
- python爱心代码高级-3.阻止黑名单上的人-注意!!!.rar
- 详解冒泡排序原理、实现与优化-适用于初学者的教学与实践
- 610打印程序资源,完美驱动
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功