1、主成分分析的概念及基本思想
主成分分析(Principle Component Analysis, PCA)是最为常用的特征提取方法,
被广泛应用到各领域,如图像处理、综合评价、语音识别、故障诊断等。它通过对
原始数据的加工处理,简化问题处理的难度并提高数据信息的信噪比,以改善抗干
扰能力。主成分概念首先由 Karl parson 在 1901 年引进,不过当时只是对非随机变
量进行讨论,1933 年 Hotelling 将这个概念推广到随机向量。
在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不
同指标之间是有一定相关性。由于指标较多并且指标之间有一定的相关性,势必增
加了分析问题的复杂性。主成分分析就是设法将原来众多具有一定相关性的指标
(比如 p 个指标),重新组合成一组新的相互无关的综合指标来代替原来指标 。通常
数学上的处理就是将原来 p 个指标作线性组合,作为新的综合指标,但是这种线性
组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一
个线性组合即第一个综合指标记为 F
1
,自然希望 F
1
尽可能多的反映原来指标的信
息,这里的“信息”用什么来表达?最经典的方法就是用 F
1
的方差来表达,即 Var(F
1
)
越大,表示 F
1
包含的信息越多。因此在所有的线性组合中所选取的 F
1
应该是方差
最大的,故称 F
1
为第一主成分。如果第一主成分不足以代表原来 P 个指标的信息,
再考虑选取 F
2
即选第二个线性组合,为了有效地反映原来信息,F
1
已有的信息就
不需要再出现在 F
2
中,用数学语言表达就是要求 Cov(F
1
,F
2
)=0 ,称 F
2
为第二主成
分,依此类推可以构造出第三,四,…,第 p 个主成分。不难想象这些主成分之间
不仅不相关,而且它们的方差依次递减。因此在实际工作中,就挑选前几个最大主
成分,虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原
始数据中进一步提取了某些新的信息。因而在某些实际问题的研究中得益比损失大,
这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。
2、主成分分析的数学模型及几何意义
2.1、数学模型
设有 n 个样品,每个样品观测 p 项指标(变量):X
1
,X
2
, ….X
p
,得到原始
评论20
最新资源