聚类分析文献综述
——曹亚丽
一、引言:
对事物进行分类,是人们认识事物的出发点,也是人们认识事物的一种
重要方法。因此分类学是人们认识世界的一门基础学科。以前人们主要是依
靠经验作定性分类,致使分类具有主观性和任意性,不能很好的揭示客观事
物内在的本质差别与联系。为了克服定型分类存在的不足,人们把数学方法
引入到分类中形成了数值分类。后来随着多元统计的不断发展,从数值分类
学中逐渐分离出了聚类分析方法。近年来聚类分析的理论和应用得到了迅速
的发展。本综述将以聚类分析的几种分类和它在不同行业的应用发展为例,来
说明 2002 年——2009 年间聚类分析的进展。
二、系统聚类法的应用与发展
聚类分析法是理想的多变量统计技术,聚类分析有许多种不同的聚类方
法,其中应用的最多、最成熟的方法是系统聚类法,也称分层聚类法。聚类分
析的思路为:首先将每个数据对象各视为一类,根据类与类之间的距离或相似
程度将最相似的类加以合并,再计算新类与其它类之间的相似程度,并选择最
相似的类加以合并,这样每合并一次就减少一类,不断继续这一过程,直到所
有数据对象合并为一类为止。早期(2002 年—2005 年)的系统聚类与多元统计
结合,用以检验聚类结果的合理性。如《心理科学》中(2000 年第 23 卷第 5
期)王益明、王永德等人对“大学新生学科选择结果与人格特征关系的研究”,
使用 SPSS 分别对男女生数据的聚类结果进行类间差异多元方差分析,以检验聚
类结果的合理性。
随着聚类分析的发展,在进行系统聚类的分析过程中,不再只是单纯的聚
类分析或是与统计分析结合,而是与其他分析结合,如因子分析、多维标度法,
使分析的结果更详细、全面,并且可以对分析结果进行一致性检验。是检验结
果更加科学、缜密。如《心理学报》中 2008 年第 40 卷里,张积家等人对“语言
和文化对空间认知的影响”的研究中,对汉族和纳西族的大学生被试的空间认知
维度和概念结构,用多维标度法与系统聚类法相结合的方法,检验分析结果的
一致性。是研究结果更加具有说服性、科学性。
三、快速聚类法的应用
快速聚类和系统聚类一样,都是以距离的远近亲属为标准进行聚类的,但是
不同之处也是明显的:系统聚类对不同的类数产生一系列的聚类结果,而快速
聚类法只能产生指定类数的结果。当样本的容量很大,或者变量较多的时候,
用系统聚类计算就显得过于繁琐这就显示了快速聚类,既方便又简单易懂,因
此其应用也是相当广泛。快速聚类也是与其他分析相结合,共同分析。
四、两步聚类法
随着近年来数据仓库和数据挖掘技术的逐渐成熟,一系列新的智能聚类方
法被发展出来。这些智能聚类方法通常计算量小,能够同时处理多个不同类型