数字图像处理 ⼈脸识别项⽬
17341190 叶盛源
数据科学与计算机学院
PCA算法原理
PCA(Principal Component Analysis)是⼀种常⽤的数据分析⽅法。PCA通过线性变换将原始数据变
换为⼀组各维度线性⽆关的表示,可⽤于提取数据的主要特征分量,常⽤于⾼维数据的降维。PCA的思
想是将n维特征映射到k维空间上 ,这k维特征是全新的正交特征,是通过PCA的算法重新构造出来
的k维特征。
在线性代数中,矩阵乘法可以看作⼀个线性的变换,相当于对向量的维度进⾏变换。这是PCA降维的基
础。
协⽅差
如上⾯的⼆维情况,如果我们必须使⽤⼀维来表示这些散点,⽬标就是找到⼀个矩阵,对这些向量线性
变换改变维度后,将这些点投影到⼀条直线上。投影后如果想要尽可能区分这些不同的点,我们需要让
投影后的点之间尽量分离,也就是⽅差要尽量⼤。可以⽤数学上的⽅差来表述。被形式化表述为:寻找
⼀个⼀维基,使得所有数据变换为这个基上的坐标表示后,⽅差值最⼤。
对于上⾯的⼀维问题来说可以这样解决,如果是更⾼维度的情况,⽐如三维要降到⼀维,我们需要找到
两个基⽅向。⾸先,我们还是先要找到⽅差最⼤的基⽅向,然后再重复⼀次上⾯的操作找第⼆个,不过
如果两次都是找⽅差最⼤的基⽅向,两次找到的⽅向就会相同(这样得到的两个基就没有意义,因为重
复表示了特征)。所以我们还需要增加⼀个条件,就是要求找到的基向量要线性⽆关,也就是找到的两
个向量最好是垂直的,也就是最好代表不同特征的⽅向。
因此,我们得到了降维问题的优化⽬标:将⼀组N维向量降为K维,其⽬标是选择K个单位正交基,使得
原始数据变换到这组基上后,各个特征两两间协⽅差为0,⽽特征的⽅差则尽可能⼤,在正交的约束
下,取最⼤的K个⽅差。
评论0