基于密度的最佳聚类数确定方法.pdf资源-CSDN文库

版权申诉

173 浏览量 2022-06-18 15:11:23 上传评论收藏 251KB PDF 举报

资源推荐

资源详情

资源评论

基于密度的最佳聚类数确定方法

[摘要]确定数据集的正确聚类数目是聚类分析中的一个基础性难题。常用的

聚类数确定方法通常依赖特定的聚类算法，且在数据集存在子簇群的情况下效果

欠佳。本文提出一种新的最佳聚类数确定的指标，该指标着重于分析簇的几何结

构，从数据对象分布密度的角度来度量类内紧密度与类间分离度。该指标对噪声

不敏感并且可以识别数据集中的子簇群，在实际数据和合成数据上的实验结果表

明,新指标的性能优于广泛使用的其他指标。

[关键字]聚类评估，聚类数，聚类有效性指标

0 引言

聚类是数据挖掘研究中重要的分析手段，其目的是将数据集中对象聚集成

类，使得同一类中的对象是相似的，而不同类中的对象是不同的。迄今研究者已

经提出了为数众多的聚类算法，并已经在商务智能、图形分析、生物信息等领域

得到了广泛应用。作为一种非监督学习的方法，对学习得到的聚类结果进行评估

是非常有必要的。因为许多聚类算法需要用户给定数据集的聚类数量，而在实际

应用中这通常是事先不知道的。确定数据集的聚类数问题目前仍是聚类分析研究

中的基础性难题之一 [1][2]。

聚类评估用于评价聚类结果的质量，这被认为是影响聚类分析成功与否的重

要因素之一[3]。它在聚类分析过程中的位置如图 1 所示。聚类评估的一些重要

问题包括确定数据集的聚类趋势、确定正确的类个数、将聚类分析结果与已知的

客观结果比较等，本文主要研究其中的最佳聚类数的确定。

通常最佳聚类数的确定是通过以下计算过程来确定的。在给定的数据集上，

通过使用不同的输入参数（如聚类数）运行特定的聚类算法，对数据集进行不

同的划分，计算每种划分的聚类有效性指标，最后比较各个指标值的大小或变化

情况，符合预定条件的指标值所对应的算法参数被认为是最佳的聚类数 [4]。

迄今为止，已有各种类型的度量指标从不同角度来评估数据集划分的有效

性，这些指标称为聚类有效性指标（Clustering Validation Indices）。一般地，用

于评估聚类的各方面的评估度量指标可分成以下两类[5]。

1）外部指标（External index）：指聚类分析的评价函数是针对基准问题的，

其簇的个数及每个数据对象的正确分类均为已知。代表性外部指标有熵、纯度、

F-measure 等。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余5页未读，立即下载

内容反馈

版权申诉

G11176593

粉丝: 6669
资源: 3万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip