相对邻域与剪枝策略优化的密度峰值聚类算法.docx资源-CSDN文库

版权申诉

157 浏览量 2023-02-23 20:15:25 上传评论收藏 2.49MB DOCX 举报

资源推荐

资源详情

资源评论

聚类分析简称聚类, 是根据样本间的相似性将样本集划分成合理类簇的过程, 聚类结

果使得同一类簇中的样本具有较高的相似性, 而不同类簇之间的样本相似性较低

[1-3]

. 聚类

是数据挖掘中的基本技术, 能够从数据中发现潜藏的知识和模式, 已广泛应用于社会网络分

析、图像模式识别、智能商务等众多领域.大数据背景下, 数据的海量、多样和复杂使得具

有自动理解、处理和概括数据的高效聚类算法研究迫在眉睫

[4]

聚类算法大致可以分为划分式聚类方法

[5-6]

、层次聚类方法

[7]

、基于网格的聚类方法

[8]

和基于密度的聚类方法

[9]

等. 其中, 基于密度的聚类方法可以发现任意形状的类簇, 对噪音

数据不敏感, 且聚类时不需要事先知道类簇的个数, 是数据挖掘技术中广泛使用的一类方

法.

快速搜索和发现样本密度峰值聚类(Density peaks clustering, DPC)算法是 Rodriguez 等

[10]

近年在 Science 发表的一种新型聚类算法. 与其他聚类算法不同, DPC 算法能自动确定类

簇数和类簇中心点, 并进行高效的非中心点样本分配和离群点剔除, 因而吸引了众多学者对

它进行深入研究. Wang 等

[11]

针对 DPC 算法对输入参数 dc (密度计算的截断距离)敏感, 并且

没有有效的设定准则的问题, 在采用核函数计算密度的情况下, 结合数据域的概念提出了一

种自动计算 dc 的方法. 同时, 强调在大数据量情况下算法效率是 DPC 算法亟待研究的关键

问题. Zhang 等

[12]

针对 DPC 算法不能解决一个类簇中多密度峰值或者无密度峰值的情况, 提

出一种扩展的 E_CFSFDP (Extended clustering by fast search and find of density peaks)算法,

在 DPC 算法聚类完成之后, 多执行一个子类的合并步骤. 该扩展方法在无密度峰值的数据

集上取得了更好的实验效果, 但是时间开销巨大, 作者也将降低时间消耗作为下一步研究的

重点. 谢娟英等

[13]

针对 DPC 算法中截断距离 dc 对聚类结果影响较大和样本分配策略可能

会导致的“多米诺骨牌”效应的问题, 分别提出了 K 近邻优化和模糊加权 K 近邻优化的密度

聚类方法 KNN-DPC (K-nearest neighbors optimized density peaks clustering)和 FKNN-DPC

(Fussy weighted KNN-DPC)

[14]

, 并通过实验证明了改进方法的有效性. 但是并未给出关于引

入参数 K 的有效设定方法, 同时由于额外 K 近邻的查找和复杂的类簇分配策略的引入, 使

得 KNN-DPC 和 FKNN-DPC 算法的时间复杂性都要远高于 DPC, 极大地影响了算法的实用

性. 因为 DPC 算法首先需要计算数据集中任意两个样本间的欧氏距离, 其时间复杂度为

O(m×n2)O(m×n2)(m 为样本特征个数, n 为数据集样本个数), 当处理海量高维数据时,大量

的高维欧氏距离计算会带来高额的时间开销, 严重影响了算法的实用性, 所以对 DPC 算法

的效率改进展开研究具有重要的应用价值. 巩树凤等

[15]

考虑了 DPC 算法效率不高的问题,

给出了分布式环境下的密度中心聚类算法 SDDPC (Simple distributed density peaks

clustering), 并且结合 Voronoi 图提出了优化的 EDDPC (Efficient distributed density peaks

clustering)算法, 提高了分布式环境下 DPC 算法的效率, 但并没有涉及 DPC 算法本身的研

究与改进.

针对 DPC 算法和现有改进算法在效率方面的不足, 本文提出一种基于相对邻域和剪枝

策略的密度峰值快速搜索聚类(Relative neighborhood and pruning strategy optimized density

peaks clustering, RP-DPC)算法. RP-DPC 的主要贡献包括: 1)改变原 DPC 算法的流程, 不再

预先计算样本两两之间的距离, 改为在聚类过程中计算必要的样本间距离, 从而避免了大量

冗余距离的计算; 2)借助双基准点映射的相对邻域来大致衡量样本之间的亲疏关系, 从而只

需要对相对“亲密”的样本进行距离计算和密度统计; 3)在计算样本的斥群值(与更高密度样

本之间距离的最小值

[15]

)时加入剪枝策略, 极大地缩小被剪枝样本的斥群值查找范围, 从而

加快了算法的效率; 4) 理论分析和在多个数据集上的对比实验均表明, RP-DPC 算法具有和

DPC 算法同样的聚类效果, 时间性能却大大优于已有的 DPC 算法及其改进算法.

1. DPC 算法

快速搜索和发现样本密度峰值的聚类算法 DPC

[10]

能够自动发现数据集样本的类簇中

心, 实现任意形状数据集样本的聚类. 该算法的设计基于以下假设: 1)聚类中心点的密度较

大, 被密度不超过它的样本点包围; 2)聚类中心点与其他密度更大的点(另一个类簇的中心

点)的距离相对较远. 为了找到同时满足上述条件的类簇中心, DPC 算法引入了样本 xixi 的

密度 ρiρi 和斥群值 δiδi, 其定义如式(1)和式(2)所示:

ρi=∑jχ(d(xi,xj)−dc)ρi=∑jχ(d(xi,xj)−dc)

(1)

其中, χ(x)χ(x)是一个函数, 当 x<0x<0 时,χ(x)=1χ(x)=1, 否则

χ(x)=0χ(x)=0; d(xi,xj)d(xi,xj)为样本 xixi 和 xjxj 间的欧氏距离, dcdc 为截断距离,即样本 xixi

的密度 ρiρi 是与样本 xixi 的距离小于 dcdc 的点的个数.

δi=min(d(xi,xj)|ρi>ρj)δi=min(d(xi,xj)|ρi>ρj)

(2)

斥群值 δiδi 代表密度比样本 xixi 大且距离样本 xixi 最近的点的距离. 当某个点 xixi 的

密度是样本集中最大的, 那么设定点 xixi 的 δi=dmaxδi=dmax(dmaxdmax 为已有样本间距离

的最大值).

DPC 算法将每个数据点的 ρρ 值和 δδ 值表示在一个 2 维决策图(Decision graph)上. 用

户根据决策图的分布情况, 选定聚类中心点, 接下来再将所有剩下的点分配到比其密度更高

且最近的样本点所属的类簇中. DPC 算法构造样本距离相对于样本密度的 2 维决策图, 能够

展示任意维度数据集的类簇中心点, 实现对任意维度数据的可视化聚类分析.

文献[10]使用大量实验证明了 DPC 算法在聚类质量上的优良性能,但是该算法也存在

一些不足, 包括质量和效率两个方面, 本文主要关注其效率方面. 对样本规模为 nn, 属性个

数为 mm 的数据集, DPC 算法中时间复杂度主要来自 3 部分: 1) 计算两两样本间的距离,

其时间复杂度为 O(m×n2)O(m×n2); 2) 计算每个样本的密度 ρρ, 其时间复杂度为

O(n2)O(n2); 3) 计算每个样本的 δδ 值, 其时间复杂度也是 O(n2)O(n2). 所以 DPC 算法总的

时间度杂度为 O(m×n2)O(m×n2). 当处理海量高维数据时, 算法的实用性受到了严重的影

响.

进一步分析 DPC 算法的时间复杂度, 其最高复杂度来自于样本间距离矩阵的计算, 后

续的样本 ρρ 值和 δδ 值都是在此距离矩阵上展开. 但仔细分析算法中 ρρ 值和 δδ 值的含义,

可以发现每个样本的 ρρ 值和 δδ 值计算并不需要全部用到该样本与其他 n−1n−1 个样本的

距离, 因此 DPC 算法预先计算的距离矩阵存在大量冗余距离. 本文提出的改进方法是将样

本间距离的计算过程后移, 与样本的 ρρ 值和 δδ 值计算过程结合在一起. 对在 ρρ 值和 δδ

剩余23页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3651
资源: 1万+

相对邻域与剪枝策略优化的密度峰值聚类算法.docx

计算机研究 -基于AFS邻域的全局聚类算法.pdf

基于改进簇中心选择策略的密度峰值聚类算法（CFDP）

论文研究-基于密度峰值优化的谱聚类算法.pdf

融合密度峰值的高斯混合模型聚类算法.docx

一种基于词嵌入与密度峰值策略的大数据文本聚类算法.docx

基于高斯核优化的密度峰值聚类算法.docx

论文研究-基于自适应蜂群优化的DBSCAN聚类算法.pdf

考虑边界样本邻域归属信息的粗糙K-means增量聚类算法.pdf

论文研究-Num-近邻方差优化的K-medoids聚类算法.pdf

论文研究-一种基于扩展区域查询的密度聚类算法.pdf

论文研究-基于密度峰值优化的模糊C均值聚类算法.pdf

论文研究-快速搜索与发现密度峰值聚类算法的优化研究.pdf

不确定数据信任密度峰值聚类算法.docx

基于深度游走和密度峰值聚类算法的CT图像分割方法软件工程研究.docx

论文研究-融合邻域扰动的简化粒子群K-均值聚类算法.pdf

论文研究-一种基于多主体技术的分布式图像聚类算法.pdf

论文研究-基于邻域模型的K-means初始聚类中心选择算法 .pdf

论文研究-基于路径相似度测量的鲁棒性谱聚类算法.pdf

基于最小化邻域互信息的邻域熵属性约简算法.docx

混合型信息系统的邻域粗糙集模型动态更新算法.docx

论文研究-基于密度与网格的聚类算法的改进.pdf

基于邻域信息和快速FCM的肺部电阻抗成像伪迹优化算法.docx

作业车间调度的空闲时间邻域搜索遗传算法.docx

论文研究-基于样本空间分布密度的初始聚类中心优化K-均值算法.pdf

论文研究-基于[ε]邻域的三支决策聚类分析.pdf

基于邻域关系的知识粒度增量式属性约简算法.docx

混合型数据的邻域条件互信息熵属性约简算法.docx

基于邻域选择策略的图卷积网络模型.docx

最新资源