第七章
例题 7.4
1、聚类分析
分析目的:分析具有不同薪金水平的职工类型。
变量选择:选择性别、教育水平、雇佣类别、当前薪金、经验进行聚类分析。
分析过程:
(1)点选“分析”→“分类”→“K-均值聚类”,如图 7-1 所示。
图 7- 1 聚类分析 1
(2)将以上 5 种变量选入“变量”当中,在“聚类数”中输入 4,如图 7-2 所示。
图 7- 2 聚类分析 2
(3)点击“选项”,探出选择框。在“统计量”中点选“初始聚类中心”,“ ANOVA 表”,“每个个
案的聚类信息”,在“缺失值”中点选“按对排除个案”,如图 7-3 所示。
图 7- 3 聚类分析 3
(4)回到主页面后,点击“确定”,如图 7-4 所示。
图 7- 4 聚类分析 4
(6)得到最终的集类中心点如表7-1 所示。
表 7- 1
(表中 sex 表示性别,1 为男性,0 为女性;雇佣类别 1 表示职员、2 表示保管员、3
表示经理。)
从表 7-1 可知,第一类职工当前的平均薪金最高($101,000),性别主要为男性
(1),教育水平(18)和雇佣类别(3-经理)最高、经验(100)相对较高;第二类职
工当前的平均薪金较高($67,382),性别主要为男性(1),教育水平(18)和雇佣类别
(3-经理)最高,经验(69)相对较低;第三类职工当前的平均薪金最低($26,160),
性别主要为女性(0),教育水平(12)最低,雇佣类别(1- 职员)较低,经验(105)
最高,第四类职工当前的平均薪金较低($43,648),性别主要为男性(1),教育水平
(16)较高,雇佣类别为 2(保管员)。
综合来看,第一类职工可定义为高级经理,第二类职工可定义为经理,第三类职工可
以定义为职员,第四类职工可定义为保管员。
最终聚类中心间的距离如表 7-2 所示。
表 7- 2
从表 7-2 可以了解到第 1 类和第 3 类的中心位置相距最远(74840),说明高级经理
和职员的特点最不相似;相反,第 3 类和第 4 类的中心位置相距最近(17488 ),说明职
员和保管员的特点最相似。
教育水平、当前薪金、性别和雇佣类别经过检定后,P 值均为 0.000,小于 0.05。经
验的显著性为 0.009,远小于 0.05,这意味着利用这 5 个变量来分类是有效的,如表 7-3
所示。
表 7- 3
4 类中人数最多的是第 3 类(344 人),随后依次为第 4 类(75 人)、第 2 类
(45 人)、第 1 类(10 人),如表 7-4 所示。
表 7- 4
2、判别分析
分析思路:对性别、教育水平、雇佣类别、经验以及薪金水平(高或低)建立判别函数。
分析过程:
(1)对薪金水平的高低进行分组,操作为“转换”→“重新编码为不同变量”,如图 7-5 所示。
图 7- 5 判别分析 1
(2)将“当前薪金”选入变量框中,在“输出变量”中填写“薪金水平”,点击“ 变化量”确
定,如图 7-6 所示。
评论0