理解主成分分析 (PCA)
SIGAI
2018.6.5
原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,
不能用于商业目的。
导言
主成分分析法 (PCA) 是一种常用的数据分析手段。对于一组不同维度
之间可能存在线性相关关系的数据,PCA能够把这组数据通过正交变换
变 成各个维度之间线性无关的数据。经过 PCA 处理的数据中的各个
样本之间的关系往往更直观,所以它是一种非常常用的数据分析和预处
理工具。PCA 处理之后的数据各个维度之间是线性无关的,通过剔除
方差较小的那些维 度上的数据我们可以达到数据降维的目的。在本文
中,我们将介绍 PCA的原理、应用以及缺陷。
为什么要有 PCA
如果数据之中的某些维度之间存在较强的线性相关关系,那么样本在这
两个维度上提供的信息有就会一定的重复,所以我们希望数据各个维度
之间是不相关的 (也就是正交的)。此外,出于降低处理数据的计算量或
去除噪 声等目的,我们也希望能够将数据集中一些不那么重要 (方差小)
的维度剔除掉。例如在下图中,数据在 x 轴和 y 轴两个维度上存在着
明显的相关性, 当我们知道数据的 x 值时也能大致确定 y 值的分布。
但是如果我们不是探 究数据的 x 坐标和 y 坐标之间的关系,那么数