图-0
3. 分析方法及原理
3.1 通过描述统计分析方法,判断哪些行业平均工资水平较高
描述统计分析方法主要是从基本统计量 (诸如均值、 方差、 标准差、 极大 / 小值、 偏度、峰度等)
的计算和描述开始的, 并辅助于 SPSS提供的图形功能, 能够把握数据的基本特征和整体的分布特征。
在本案例中,通过比较不同行业(诸如企业、事业、 机关、建筑业、制造业 ,, )工资的均值、
极大 /小值,可以从总体上判断哪些行业的平均工资水平较高,哪些行业的较低。
3.2 通过聚类分析方法,判断哪些地区平均工资水平较高
聚类分析是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医
学等领域,都有广泛的应用。聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照在性
质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征之间
具有相似性,不同类间个体特征的差异性较大。
在本案例中,我们将采用两种方法进行聚类分析:一种是系统聚类法,另一种是 K-均值法(快
速聚类法)。
3.2.1 系统聚类法
系统聚类法的基本原理: 首先将一定数量的样本或指标各自看成一类, 然后根据样本 (或指标)
的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再
进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。
系统聚类分为 Q 型聚类和 R 型聚类两种: Q 型聚类是对样本进行聚类,它使具有相似特征的样
本聚集在一起,使差异性大的样本分离开来; R 型聚类是对变量进行聚类,它使差异性大的变量分
离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分
析,实现减少变量个数、降低变量维度的目的。
在本例中进行的是 Q 型聚类。
类与类之间距离的计算方法主要有以下几种:
(1) 最短距离法( Nearest Neighbor ),是指两类之间每个个体距离的最小值;
(2) 最长距离法( Farthest Neighbor ),是指两类之间每个个体距离的最大值;
(3) 组间联接法( Between-groups Linkage ),是指两类之间个体之间距离的平均值;
评论0
最新资源