原始题目:请对下面 6 维数据集进行分析,写出主要结论
包括 PCA 和 PCA 回归
31 32 28 34 31 33 31 29 29 30 31 32 33 21 39 38
45 56 42 58 41 40 56 44 59 55 65 55 42 59 56 58
131 126 131 119 134 130 131 129 129 134 128 123 132 135 142 99
30 27 29 30 31 29 29 27 31 28 29 33 36 32 37 31
86 78 91 70 50 85 88 90 45 67 53 98 68 62 63 89
33 32 24 30 27 27 30 32 32 31 31 31 35 31 46 30
1 主成分分析法
1.1 基本原理
主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转
化称其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角矩
阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的 p 个正交
方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转化成低维变量系统,再
通过构造适当的价值函数,进一步把低维系统转化成一维系统。
1.2 原始指标数据的标准化
采集 p 维随机向量
1 2
( , ,..., )
T
p
X X X X=
n 个样品
1 2
( , ,..., )
i i
T
i i p
X X X X=
,
1, 2,...,i n=
。
n>p,构造样本阵,对样本进行如下标准化变换:
, 1, 2,..., ; 1, 2,...,
ij j
ij
j
X X
Z i n j p
S
-
= = =
其中
2
2
1 1
( )
,
1
n n
ij i j j
i i
j J
X X X
X S
n
= =
-
= =
-
å å
,得标准化阵 Z.。
1.3 对标准化阵 Z 求相关系数矩阵
1
T
ij
p p
Z Z
R r
n
´
é ù
= =
ë û
-
其中
| | 0
p
R I
l
- =
。
解样本相关矩阵 R 的特征方程
| | 0
p
R I
l
- =
得 p 个特征根,确定主成分
按
1
1
0.85
m
j
j
p
j
j
l
l
=
=
³
å
å
确定 m 值,使信息的利用率达
85%100
以上。对每个
, 1, 2,...,
j
j m
l
=
,解方
程组
,
j
Rb b
l
=
得单位特征向量
0
j
b
。