摘 要 聚类分析是数据挖掘中的一个重要研究领域。K-means 算法对随机选
取 K 个初始点作为初始值是很敏感的,聚类的质量依赖于初始值。在分析聚类结果
对初值依赖性的基础上,对初值选取方法进行了分析和研究,并提出了一种有效的
改进方法,通过试验证明了改进算法的有效性。
数据挖掘(Data Mining),又称为数据库中的知识发现(简称 KDD),是从
大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它是
一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智
能等各领域的研究成果。聚类是数据挖掘中的一种主要技术,是把一组个体按照相
似性归成若干类别即“物以类聚”。它的目的是使得属于同一类别的个体之间的距
离尽可能的小而不同类别上的个体间的距离尽可能大。
K-means 算法属于数据挖掘聚类分析方法中一种基本的且应用最广泛的
划分算法,它是一种已知聚类类别数的聚类算法。指定类别数为 K,对样本集合进
行聚类,聚类的结果由 K 个聚类中心来表达,基于给定的聚类目标函数(或者说是
聚类效果判别准则),算法采用迭代更新的方法,每一次迭代过程都是向目标函数
值减小的方向进行,最终的聚类结果使目标函数值取得极小值,达到较优的聚类效
果。根据聚类结果的表达方式又可以分为硬 K-means(HCM)算法、模糊 K-means 算
法(FCM)和概率 K-means 算法(PCM)。
该算法的基本框架如下:
(1) 给定大小为 N 的数据集,令 I =1,选取 k 个初始聚类中心 Z
j(I),j =1,2,3,...,k。
(2)计算每个数据对象与聚类中心的距离 D(Xi,Zj(I))。
其中 i=1,2,3,…,n,j=1,2,3,…,k,如果满足(1)式:
(4)判断:若 Zj(I+1)≠Zj(I),j=1,2,3,…,K,则 I=I+1,返回
(2),否则该算法结束。