基于密度的最佳聚类数确定方法
[摘要]确定数据集的正确聚类数目是聚类分析中的一个基础性难题。常用的
聚类数确定方法通常依赖特定的聚类算法,且在数据集存在子簇群的情况下效果
欠佳。本文提出一种新的最佳聚类数确定的指标,该指标着重于分析簇的几何结
构,从数据对象分布密度的角度来度量类内紧密度与类间分离度。该指标对噪声
不敏感并且可以识别数据集中的子簇群,在实际数据和合成数据上的实验结果表
明,新指标的性能优于广泛使用的其他指标。
[关键字]聚类评估,聚类数,聚类有效性指标
0 引言
聚类是数据挖掘研究中重要的分析手段,其目的是将数据集中对象聚集成
类,使得同一类中的对象是相似的,而不同类中的对象是不同的。迄今研究者已
经提出了为数众多的聚类算法,并已经在商务智能、图形分析、生物信息等领域
得到了广泛应用。作为一种非监督学习的方法,对学习得到的聚类结果进行评估
是非常有必要的。因为许多聚类算法需要用户给定数据集的聚类数量,而在实际
应用中这通常是事先不知道的。确定数据集的聚类数问题目前仍是聚类分析研究
中的基础性难题之一 [1][2]。
聚类评估用于评价聚类结果的质量,这被认为是影响聚类分析成功与否的重
要因素之一[3]。它在聚类分析过程中的位置如图 1 所示。聚类评估的一些重要
问题包括确定数据集的聚类趋势、确定正确的类个数、将聚类分析结果与已知的
客观结果比较等,本文主要研究其中的最佳聚类数的确定。
通常最佳聚类数的确定是通过以下计算过程来确定的。在给定的数据集上,
通过使用不同的输入参数(如聚类数 )运行特定的聚类算法,对数据集进行不
同的划分,计算每种划分的聚类有效性指标,最后比较各个指标值的大小或变化
情况,符合预定条件的指标值所对应的算法参数 被认为是最佳的聚类数 [4]。
迄今为止,已有各种类型的度量指标从不同角度来评估数据集划分的有效
性,这些指标称为聚类有效性指标(Clustering Validation Indices)。一般地,用
于评估聚类的各方面的评估度量指标可分成以下两类[5]。
1)外部指标(External index):指聚类分析的评价函数是针对基准问题的,
其簇的个数及每个数据对象的正确分类均为已知。代表性外部指标有熵、纯度、
F-measure 等。