FCM 算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间
相似度最大,而不同簇之间的相似度最小。模糊 C 均值算法是普通 C 均值算法的改进,普
通 C 均值算法对于数据的划分是硬性的,而 FCM 则是一种柔性的模糊划分。在介绍 FCM
具体算法之前我们先介绍一些模糊集合的基本知识。
首先说明隶属度函数的概念。隶属度函数是表示一个对象 x 隶属于集合 A 的程度的函
数,通常记做μ (x),其自变量范围是所有可能属于集合 A 的对象(即集合 A 所在空间中
μ (x)<=1。μ (x)=1 表示 x 完全隶属于集合 A,相当于传统集合概念上的 x∈A。一个定义
在空间 X={x}上的隶属度函数就定义了一个模糊集合 A,或者叫定义在论域 X={x}上的模糊
子集 。对于有限个对象 x ,x ,……,x 模糊集合 可以表示为:
有了模糊集合的概念,一个元素隶属于模糊集合就不是硬性的了,在聚类的问题中,可
以把聚类生成的簇看成模糊集合,因此,每个样本点隶属于簇的隶属度就是[0,1]区间里面
的值。
K 均值聚类,即众所周知的 C 均值聚类,已经应用到各种领域。它的核心思想如下:
算法把 n 个向量 x (1,2…,n)分为 c 个组 G (i=1,2,…,c),并求每组的聚类中心,使得非相似性
(或距离)指标的价值函数(或目标函数)达到最小。当选择欧几里德距离为组j 中向量 x
k
与相应聚类中心 c 间的非相似性指标时,价值函数可定义为:
|| x c || ) 是组 i 内的价值函数。这样 J 的值依赖于 G 的几何特性和 c
一般来说,可用一个通用距离函数 d(x ,c )代替组 I 中的向量 x ,则相应的总价值函数可
为简单起见,这里用欧几里德距离作为向量的非相似性指标,且总的价值函数表示为
(6.2)式。
划分过的组一般用一个 c×n 的二维隶属矩阵 U 来定义。如果第 j 个数据点 x 属于组 i,
则 U 中的元素 u 为 1;否则,该元素取 0。一旦确定聚类中心 ci,可导出如下使式(6.2)