R 语言实现 PCA
定义
PCA
(
Principal Component Analysis
)
不仅仅是对高维数据进行降维,更重要的是
经过降维去除了噪声,发现了数据中的模式。
降维的必要性
1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而
可能导致结果的不连贯。
2.高维空间本身具有稀疏性。一维正态分布有 68%的值落于正负标准差之间,而在
十维空间上只有 0.02%。
3.过多的变量会妨碍查找规律的建立。
4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落
入仅反映数据某一方面特征的一个组内。
PCA 实例
在解决实际问题和研究中,经常会对研究对象尽可能收集更多的信息,以期对问题
有一个全面综合的认识,但是由于理论发展和应用技术的限制,过多变量无法在处
理和分析中发挥作用,大量信息反而成了分析和解决问题的障碍,为解决这一问题
应采用主成分分析。
第一主成分是
个观测变量的加权组合,对初始变量集的方差解释性最大。第二主
成分也是初始变量的线性组合,对方差的解释性排第二,同时与第一主成分正交
(不相关)。后面每一个主成分都最大化它对方差的解释程度,同时与之前所有的
主成分都正交。
:坐高
require(xlsx)
setwd("C:/Users/Administrator/Desktop/PCA")
data<- read.xlsx("student.xlsx", sheetIndex = "Sheet1")