KPCA: 即核主成分分析,就是主成分分析的非线性扩展。PCA 对非线性数据处理欠佳,
而 KPCA 则能够达到较高的识别率。主要目的是降维,当然也可以用于分类。
KPCA 的公式推导和 PCA 十分相似,只是存在两点创新:
1. 为了更好地处理非线性数据,引入非线性映射函数 Φ,将原空间中的数据映射到高维空
间,注意,这个 Φ 是隐性的,我们不知道,也不需要知道它的具体形式是啥。
2. 引入了一个定理:空间中的任一向量(哪怕是基向量),都可以由该空间中的所有样本
线性表示,这点对 KPCA 很重要。
假设中心化后的样本集合 X(d*N,N 个样本,维数 d 维,样本按列排列),现将 X 映射到
高维空间,得到 Φ(X),假设在这个高维空间中,本来在原空间中线性不可分的样本现在
线性可分了。
假设 D(D > d)维向量 为高维空间中的特征向量,
为对应的特征值,高维空间中的 PCA 如下:
(1)
这个时候,再利用刚才的定理,将特征向量 利用样本集合 线性表示,
如下:
(2)
然后,在把 代入上上公式,得到如下的形式:
评论1