聚类算法
聚类分析与判别分析
资料来源 : http://tcm2007.bioon.cn
第一节 聚类分析统计思想
一、聚类分析的基本思想
1.什么是聚类分析
俗语说,物以类聚、人以群分。
当有一个分类指标时,分类比较容易。
但是当有多个指标,要进行分类就不是很容易了。
比如,要想把中国的县分成若干类,可以按照自然条件来分:考
虑降水、土地、日照、湿度等各方面;
也可以考虑收入、教育水准、医疗条件、基础设施等指标;
对于多指标分类,由于不同的指标项对重要程度或依赖关系是相互不同的,所以
也不能用平均的方法,因为这样会忽视相对重要程度的问题。
所以需要进行多元分类,即聚类分析。
最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于
昆虫的分类中,此后又广泛地应用在天气、生物等方面。
对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分
类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。
2.R 型聚类和 Q 型聚类
对变量的聚类称为 R 型聚类,而对观测值聚类称为 Q 型聚类。这两种聚类在数学
上是对称的,没有什么不同。
聚类分析就是要找出具有相近程度的点或类聚为一类;
如何衡量这个“相近程度”?就是要根据“距离”来确定。