1、了解 K-均值聚类算法的原理;
2、掌握 K-均值聚类算法的特点;
3、掌握使用 K-均值聚类算法解决实际问题的方法。
k-means 算法,也被称为 k-平均或 k-均值,是一种得到最广泛使用的聚类算法。
它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要
思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数
达到最优,从而使生成的每个聚类内紧凑,类间独立。这一算法不适合处理离散
型属性,但是对于连续型具有较好的聚类效果。
1.为中心向量 c1, c2, …, ck 初始化 k 个种子分组:
2.将样本分配给距离其最近的中心向量,由这些样本构造不相交的聚类
3.确定中心:
用各个聚类的中心向量作为新的中心
4.重复分组和确定中心的步骤,直至算法收敛
算法 k-means 算法
输入:簇的数目 k 和包含 n 个对象的数据库。
输出:k 个簇,使平方误差准则最小。
1.为每个聚类确定一个初始聚类中心,这样就有 K 个初始聚类中心。
2.将样本集中的样本按照最小距离原则分配到最邻近聚类
3.使用每个聚类中的样本均值作为新的聚类中心。
4.重复步骤 2.3 直到聚类中心不再变化。
5.结束,得到 K 个聚类
将样本分配给距离它们最近的中心向量,并使目标函数值减小