我们的目的就是使得最终得到的中心点使得,每个样本到中心点和最小,每个样本到中心点距离公式
为了使损失函数最小,求偏导可以得到中心点的更新公式为:
K- means算法在迭代的过程中使用所有点的均值作为新的质点(中心点),如果簇中存在异常点,将
一个簇中有2、4、6、8、100五个数据,那么新的质点为24,显然这个质点离绝大多数点都比较
远;在当前情况下,使用中位数6可能比使用均值的想法更好,
使用中位数的聚类方式叫做K-
K- means算法是初值敏感的,选择不同的初始值可能导致不同的簇划分规则。
为了避免这种敏感性导致的最终结果异常性,可以采用初始化多套初始节点构造不同的分类规则,
又或者改变初始值的选择。这样通过改进的K-Means算法,将在下面进行一一介绍。
下面给出一个初始值敏感的直观例子。给定一定的数据点如图9.3所示,我们明显等看到可以划
假如我们随机给定的中心点A,B,C,D如图9.3所示:
根据上面我们掌握的K-Means算法原理,发现有两个问题会很大影响K-Means算法。
评论0
最新资源