一、利用 clusterdata 函数对数据样本进行一次聚类,这个方法简洁方便,其
特点是使用范围较窄,不能由用户根据自身需要来设定参数,更改距离计算方法;
二、步聚类:(1)用 pdist 函数计算变量之间的距离,找到数据集合中两辆变
量之间的相似性和非相似性;(2)用linkage 函数定义变量之间的连接;(3)
用 cophenet 函数评价聚类信息;(4)用 cluster 函数进行聚类。
Clusterdata 函数可以视为 pdist、linkage与 cluster的综合,即C
lusterdata 函数调用了 pdist、linkage 和cluster,用来由原始样本
数据矩阵 X 创建系统聚类,一般比较简单。
clusterdata函数的调用格式:T=clusterdata(X,c
utoff)
输出参数T 是一个包含n 个元素的列向量,其元素为相应观测所属类的类序号。输入
参数X 是 n p 的矩阵,矩阵的每一行对应一个观测(样品),每一列对应一个变量。Cutoff 为
(1)当 0<cutoff<2 时,T=clusterdata(X,cutoff)
Y=pdist(X,’euclid’); Z=linkage(Y,’single’); T=cluste
r(Z,’cutoff’,cutoff) ;(‘cutoff’指定不一致系数或距离的阈值,
参数值为正实数)
(2)Cutoff>>2 时,T=clusterdata(X,cutoff)
Y=pdist(X,’euclid’); Z=linkage(Y,’single’); T=cluster(Z,‘maxcl
ust’,cutoff) ;(‘maxclust’指定最大类数,参数值为正整数)