FCM 聚类算法介绍
FCM 算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间
相似度最大,而不同簇之间的相似度最小。
模糊 C 均值算法是普通 C 均值算法的改进,普通 C 均值算法对于数据的划分是硬性的,
而 FCM 则是一种柔性的模糊划分。在介绍 FCM 具体算法之前我们先介绍一些模糊集合的
基本知识。
6.1.1 模糊集基本知识
[21]
首先说明隶属度函数的概念。隶属度函数是表示一个对象 x 隶属于集合 A 的程度的函
数,通常记做μ
A
(x),其自变量范围是所有可能属于集合 A 的对象(即集合 A 所在空间中
的所有点),取值范围是[0,1],即 0<=1,μ
A
(x)<=1。μ
A
(x)=1 表示 x 完全隶属于集合 A,相
当于传统集合概念上的 x∈A。一个定义在空间 X={x}上的隶属度函数就定义了一个模糊集
合 A,或者叫定义在论域X={x}上的模糊子集
A
。对于有限个对象 x
1
,x
2
,……,x
n
模糊集
~
合
A
可以表示为:
~
A {(
A
(x
i
), x
i
) | x
i
X}
(6.1)
~
有了模糊集合的概念,一个元素隶属于模糊集合就不是硬性的了,在聚类的问题中,可
以把聚类生成的簇看成模糊集合,因此,每个样本点隶属于簇的隶属度就是[0,1]区间里面
的值。
6.1.2 K 均值聚类算法(HCM)介绍
K 均值聚类,即众所周知的 C 均值聚类,已经应用到各种领域。它的核心思想如下:
算法把 n 个向量 x
j
(1,2…,n)分为 c 个组 G
i
(i=1,2,…,c),并求每组的聚类中心,使得非相似性
(或距离)指标的价值函数(或目标函数)达到最小。当选择欧几里德距离为组j 中向量 x
k
与相应聚类中心 c
i
间的非相似性指标时,价值函数可定义为:
J
Ji
(
i1 i1
c c
k ,x
k
Gi
|| x
k
c
i
||
2
)
(6.2)
这里
Ji
(
|| x
i1 k ,x
k
Gi
c
k
c
i
||
2
)
是组 i 内的价值函数。这样 J
i
的值依赖于 G
i
的几何特性和 c
i
的位置。
一般来说,可用一个通用距离函数 d(x
k
,c
i
)代替组 I 中的向量 x
k
,则相应的总价值函数可
表示为:
J
Ji
(
d(x
i1 i1 k ,x
k
Gi
c c
k
c
i
))
(6.3)
为简单起见,这里用欧几里德距离作为向量的非相似性指标,且总的价值函数表示为
(6.2)式。
划分过的组一般用一个 c×n 的二维隶属矩阵 U 来定义。如果第 j 个数据点
x
j
属于组 i,
则 U 中的元素
u
ij
为 1;否则,该元素取 0。一旦确定聚类中心
v
i
,可导出如下使式(6.2)