主成分分析在 SPSS 中的操作应用
[ 作者:市场研究协会 转贴自:市场研究协会 点击数:8468更新时间:2007-4-23文章录入:majihua ]
一、引言
主成分分析和因子分析在社会经济统计综合评价中是两个常被使用的统计分析方法。现在 SPSS、SAS 等统计软件使用越来越普遍,但 SPSS
并未像 SAS 一样,将主成分分析与因子分析作为两个独立的方法并列处理[注:主成分分析与因子分析二者是又有着区别与联系,最主要的不同在
于它们的数学模型的构建上,具体区别请见参考文献 2],而是根据二者之间的关系有机地将主成分分析嵌入到因子分析之中,这样虽然简化了分
析程序,却为主成分分析的计算带来不便。且国内许多 SPSS 教程并没有详细讲解如果应用 SPSS 进行主成分分析,如何使用 SPSS 对主成分分析
进行计算呢?为使读者能够正确使用 SPSS 软件进行主成分分析,本文将通过一个实例来详细介绍如何用 SPSS 做主成分分析。接下来先简单介绍
主成分分析原理与模型,以便读者对主成分分析有个大致的了解。
二、主成分分析原理和模型
[1]
(一)主分成分析原理
主成分分析是设法将原来众多具有一定相关性(比如 P 个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上
的处理就是将原来 P 个指标作线性组合,作为新的综合指标。最经典的做法就是用 F
1
(选取的第一个线性组合,即第一个综合指标)的方差来表
达,即 Var(F
1
)越大,表示 F
1
包含的信息越多。因此在所有的线性组合中选取的 F
1
应该是方差最大的,故称 F
1
为第一主成分。如果第一主成分不
足以代表原来 P 个指标的信息,再考虑选取 F
2
即选第二个线性组合,为了有效地反映原来信息,F
1
已有的信息就不需要再出现再 F
2
中,用数学语
言表达就是要求 Cov(F
1
, F
2
)=0,则称 F
2
为第二主成分,依此类推可以构造出第三、第四,……,第 P 个主成分。
(二)主成分分析数学模型
F
2
=a
12
ZX
1
+a
22
ZX
2
……+a
p2
ZX
p
……
F
p
=a
1m
ZX
1
+a
2m
ZX
2
+……+a
pm
ZX
p
其中 a
1i
, a
2i
, ……,a
pi
(i=1,……,m)为 X 的协方差阵 Σ 的特征值多对应的特征向量,ZX
1
, ZX
2
, ……, ZXp 是原始变量经过标准化处理的值,
因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响
[注:本文指的数据标准化是指 Z 标准化]。
A=(a
ij
)
p×m
=(a
1
,a
2
,…a
m
,),Ra
i
=λ
i
a
i
,R 为相关系数矩阵,λ
i
、a
i
是相应的特征值和单位特征向量,λ
1
≥λ
2
≥…≥λ
p
≥0 。
进行主成分分析主要步骤如下:
1. 指标数据标准化(SPSS 软件自动执行);
2. 指标之间的相关性判定;
3. 确定主成分个数 m;
4. 主成分 F
i
表达式;
5. 主成分 F
i
命名;
主成分与综合主成分(评价)值。
三、对沿海 10 个省市经济综合指标进行主成分分析
(一)指标选取原则
本文所选取的数据来自《中国统计年鉴 2003》中 2002 年的统计数据,在沿海 10 省市经济状况主要指标体系中选取了 10 个指标:
X
1
——GDP X
2
——人均 GDP
X
3
——农业增加值 X
4
——工业增加值
X
5
——第三产业增加值 X
6
——固定资产投资
X
7
——基本建设投资 X
8
——国内生产总值占全国比重(%)
X
9
——海关出口总额 X
10
——地方财政收入
图表 1 沿海 10 个省市经济数据
评论0