K-均值聚类算法报告
1.算法思想
K-均值算法也称 C-均值算法,是根据函数准则进行分类的聚类算法,基于
使聚类准则函数最小化。K-均值算法的主要思想是先在需要分类的数据中寻找
K 组数据作为初始聚类中心,然后计算其他数据距离这三个聚类中心的距离,
将数据归入与其距离最近的聚类中心,之后再对这 K 个聚类的数据计算均值,
作为新的聚类中心,继续以上步骤,直到新的聚类中心与上一次的聚类中心值
相等时结束算法。
准则函数:聚类集中每一样本点到该类中心的距离平方和。对于第 j 个聚
类集,准则函数定义为:
Sj:第 j 个聚类集(域),聚类中心为 Zj ;
Nj:第 j 个聚类集 Sj 中所包含的样本个数。
对所有 K 个模式类有:
K-均值算法的聚类准则:聚类中心的选择应使准则函数 J 极小,即使 Jj 的值
极小。
即有:
可解得:
上式表明,Sj 类的聚类中心应选为该类样本的均值。
2.算法描述
(1)任选 K 个初始聚类中心:Z1(1), Z2(1),…,ZK(1)括号内序号:迭代
运算的次序号。
(2)按最小距离原则将其余样品分配到 K 个聚类中心中的某一 个,即:
则
(3)计算各个聚类中心的新向量值:
Nj:第 j 类的样本数。
(4)如果 则回到(2),将模式样本逐个重新分类,重复
迭代计算。
如果 ,则算法收敛,计算完毕。