一、PCA 的作用——数据降维
数据降维就是降低数据集的维度。解决实际问题中,有时候原始输入
数据的维度很高,但其实并不是所有数据都对我们解决的问题有帮
助,同时数据维度多也会带来更高的计算量,但是又不能简单的直接
除去一些维度,这时就要通过一些方法把高维度的数据降为低维度,
但同时保留原始数据集的大部分信息,以保证训练的准确性。数据降
维的常用方法有主成分分析(PCA)、因子分析(FA)、独立成分分
析(ICA),等,其中 PCA 的应用最为广泛,本文主要讲解 PCA 算
法。
PCA(Principal Component Analysis)主成分分析是一种常见的数
据分析方式,这一方法利用正交变换把由线性相关变量表示的数据转
换为少数几个由线性无关变量表示的数据,线性无关变量称为主成
分。主成分的数量通常小于原始变量数量,因此主成分分析常用于高
维数据的降维,提取数据的主要特征分量。
二、原理详解
1. 直观理解
其实在上面已经提到了,pca 算法通过正交变换,将原始数据投影到
新的维度,可以理解为新维度的数据更加凝练,用较少的维度包含了
原始数据中的绝大部分信息,因此可以用低维的数据进行后续训练。