主元分析(PCA)理论分析及应用
主元分析(PCA)理论分析及应用
什么是PCA?
PCA是Principal component analysis的缩写,中文翻译为主元分析。它是一种对数据进行分析的技
术,最重要的应用是对原有数据进行简化。正如它的名字:主元分析,这种方法可以有效的找出数据中
最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单
结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科
学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。
在以下的章节中,不仅有对PCA的比较直观的解释,同时也配有较为深入的分析。首先将从一个简
单的例子开始说明PCA应用的场合以及想法的由来,进行一个比较直观的解释;然后加入数学的严格推
导,引入线形代数,进行问题的求解。随后将揭示PCA与SVD(Singular Value Decomposition)之间的联系
以及如何将之应用于真实世界。最后将分析PCA理论模型的假设条件以及针对这些条件可能进行的改
进。
一个简单的模型
在实验科学中我常遇到的情况是,使用大量的变量代表可能变化的因素,例如光谱、电压、速度等
等。但是由于实验环境和观测手段的限制,实验数据往往变得极其的复杂、混乱和冗余的。如何对数据
进行分析,取得隐藏在数据背后的变量关系,是一个很困难的问题。在神经科学、气象学、海洋学等等
学科实验中,假设的变量个数可能非常之多,但是真正的影响因素以及它们之间的关系可能又是非常之
简单的。
下面的模型取自一个物理学中的实验。它看上去比较简单,但足以说明问题。如图表 1所示。这是
一个理想弹簧运动规律的测定实验。假设球是连接在一个无质量无摩擦的弹簧之上,从平衡位置沿
轴
拉开一定的距离然后释放。
http://www.cad.zju.edu.cn/home/chenlu/pca.htm(第 1/10 页)2008-8-22 13:09:01