STATA 从入门到精通
第12章 聚类分析
Page � 2
STATA从入门到精通
聚类分析
13.1.1 聚类分析的基本原理
13.1.2 层次聚类
13.1.3 K-均值聚类
13.1.4 聚类分析的Stata命令
Page � 3
STATA从入门到精通
把“对象”分成不同的类别
这些类不是事先给定的,而是直接根据数据的特征
确定的
把相似的东西放在一起,从而使得类别内部的“差异”
尽可能小,而类别之间的“差异”尽可能大
聚类分析就是按照对象之间的“相似”程度把对象进行
分类
什么是聚类分析?
(cluster analysis)
Page � 4
STATA从入门到精通
聚类分析的“对象”可以是所观察的多个样本,也可以
是针对每个样本测得的多个变量
按照变量对所观察的样本进行分类称为Q型聚类
按照多项经济指标(变量)对不同的地区(样本)进行
分类
按照样本对多个变量进行分类,则称为R型聚类
按照不同地区的样本数据对多个经济变量进行分类
两种聚类没有什么本质区别,实际中人们更感兴趣的通
常是根据变量对样本进行分类(Q型聚类)
什么是聚类分析?
(两种分类方式)
Page � 5
STATA从入门到精通
按对象的“相似”程度分类
根据样本的观测数据测度变量之间的相似性程度可以使
用夹角余弦、Pearson相关系数等工具,也称为相似系数
变量间的相似系数越大,说明它们越相近
根据变量来测度样本之间的相似程度则使用“距离”
把离得比较近的归为一类,而离得比较远的放在不
同的类
什么是聚类分析?
(按什么分类)
评论0