聚类分析
问题的实际背景
分类是科学研究的一个基础的、重要的方法。一般都是根据欲分类对象的性质来分类。
对事物分类有多种方法。如内涵定义方法、外延定义方法等等。多元统计中的聚类分析是利
用样本数据对样本或变量进行分类的一种数量方法。
所谓对事物进行分类,就是根据事物特性,将性质相近的事物归为一类。因此,欲用数
量方法对事物分类,就应先明确事物性质的“远近”的概念。从数学的观点看,事物性质的
“远近”可以用“距离”来刻画。根据事物特性和分类要求的不同,可以定义事物各种不同
的“距离”。
定义了合适的距离,面对大量的对象,需要用系统的方法去进行聚类。此即聚类的算法。
聚类分析有许多方法。理解聚类方法关键要注意两点:1)距离;2)聚类的算法。
距离与相似系数
根据事物特性和分类要求的不同,可以定义事物各种不同的“距离”。
假设有
p
个指标变量,
n
个样本,样本数据矩阵为
x
11
x
1 p
X
。
x
x
np
n1
在进行样本聚类分析时,最常用的有以下几种“距离”的定义:
1、 绝对值距离:
d
ij
(1)
n
x
k 1
ik
x
jk
;
1 2
2、 Euclid 距离:
d
ij
(2)
k 1
n
x
ik
x
jk
;
1k n
3、 Chebyshev 距离:
d
ij
() max x
ik
x
jk
;
n
4、 Minkowski 距离:
d
ij
(q)
x
ik
x
jk
k 1
5、 Markoff 距离:
d
ij
(M ) (x
i
x
j
)
V
2 1
1 q
;
(x
i
x
j
)
其中,
x
ij
是样本观察值,
x
i
是样本数据矩阵的行向量,
V
是样本数据矩阵的协方差矩
阵。
不难看出,绝对值距离、Euclid 距离、Chebyshev 距离分别是 Minkowski 距离分别取
q 1
、
2、
时的特例。Markoff 距离不受量纲的影响。
在对变量进行聚类分析时,也用上述的距离,但用得较多的是所谓的相似系数。常用的
变量相似系数有下列几种: