一种混合属性数据的聚类算法一种混合属性数据的聚类算法
提出一种基于属性分解的随机分组的改进方法,以提高聚类算法的稳定性和适用性。实验仿真结果表明,改进
算法具有很好的稳定性和应用性。
摘摘 要:要: 提出一种基于属性分解的随机分组的改进方法,以提高
关键词:关键词: 聚类;
所谓聚类,就是将物理或抽象对象的集合构成为由类似的对象组成多个类或簇的过程。由聚类所生成的簇是一组数据对象的
集合,同一簇中的数据对象尽可能相似,不同簇中的数据对象尽可能相异[1]。聚类算法在许多领域获得了广泛应用[2],但
是,由于在实际应用中,许多数据集不仅包含数值属性的数据,同时也包含如地图颜色、几何纹理等
MacQueen所提出的k-means方法[3]是最早、也是最简单的聚类方法,但是该方法只能对数值属性的对象集进行聚类,无法
对分类属性和混合型属性的对象集进行聚类。Huang提出的k-modes算法和k-prototypes算法[4]推广了k-means方法,使之可
以对分类属性和混合型属性的数据集进行聚类。同时陈宁、陈安、周龙骧进一步提出了模糊k-prototypes算法,并利用引进模
糊聚类算法来提高聚类结果的准确性[5]。
上述方法在聚类过程中,均利用分类型属性简单匹配相异度,将分类型属性的数据转化为数值型属性数据间的基于距离的计
算问题,从而解决了对混合属性数据集的聚类问题。但是上述方法在对分类属性数据和混合型属性数据进行聚类时,总会存在
一些如聚类结果的随机性和不稳定性等缺点,甚至有时会出现空聚类[6-7]现象。
为此,本文在k-prototypes算法的基础上进行改进,利用随机分组的思想动态地选取初始原型点,同时对分类属性数据采取
属性分解的方法进行处理,从而提高算法的稳定性和适用性,使聚类结果更加理想化。
1 相关观念相关观念
聚类是将数据对象分成类或簇的过程,使同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异[2]。其中
对象间的相异度度量用来表示对象间的相异程度,代价函数用来表示对象间的相似程度。