摘要:
PCA(Principal Component Analysis),称主成分分析,从统计学的角度来说是一种多元统
计方法。PCA 通过将多个变量通过线性变换以选出较少的重要变量。它往往可以有效地从过
于“丰富”的数据信息中获取最重要的元素和结构,去除数据的噪音和冗余,将原来复杂的数
据降维,揭示隐藏在复杂数据背后的简单结构。近年来,PCA 方法被广泛地运用于计算机领
域,如数据降维、图像有损压缩、特征追踪等等。
在人脑的生理特征中,人脑对外界的认知手段多样,导致人获取的信息维数过高.如果人脑
不对获取的信息进行降维处理,那么人脑对信息处理的效率和精准度都会下降,因此人脑对
这些感知神经处理时,均通过了复杂的降维处理。
PCA 方法广泛运用于从神经科学到计算机图形学的数据分析.因为它是一种简单的非参方
法,能够从复杂的数据集中提取出数据相关信息。我们进行主成分分析的动机是希望计算出
一个含有噪音数据空间的最重要的基,来重新表达这个数据空间。但是这些新基往往隐藏在
复杂的数据结构中,我们需要滤除噪音来找到重构出数据空间的新基。
PCA 方法是一个高普适用方法,它的一大优点是能够对数据进行降维处理,我们通过PCA
方法求出数据集的主元,选取最重要的部分,将其余的维数省去,从而达到降维和简化模型
的目的,间接地对数据进行了压缩处理,同时很大程度上保留了原数据的信息,就如同人脑
在感知神经处理时进行了降维处理。
所以在机器学习和模式识别及计算机视觉领域,PCA 方法被广泛的运用。
在人脸识别中,假设训练集是 30 幅不同的 N×N 大小的人脸图像。把图像中每一个像素看
成是一维信息,那么一副图像就是 N2维的向量。因为人脸的结构有极大的相似性,如果是同
一个人脸的话相似性更大。而我们的所希望能够通过人脸来表达人脸,而非用像素来表达人
脸。那么我们就可以用PCA 方法对 30 幅训练集图像进行处理,寻找这些图像中的相似维度。
我们提取出最重要的主成份后,让被识别图像与原图进行过变化后的主元维度进行相似度比
较,以衡量两幅图片的相似性.
在图像压缩方面,我们还可以通过PCA 方法进行图像压缩,又称 Hotelling 或者 Karhunen
and Leove变换。我们通过 PCA 提取出图像的主分量,去除掉一些次分量,然后变换回原图
像空间,图像因为维数的降低得到了很大程度上的压缩,同时图像还很大程度上保留了原图
PCA 方法其实就是将数据空间通过正交变换映射到低维子空间的过程.而相应的基向量组
应满足正交性且由基向量组构成的地位子空间最优地考虑了数据的相关性。在原数据集变换
空间后应使单一数据样本的相互相关性降低到最低点。