### PCA-方差及协方差等介绍 #### 均值 均值是一个非常基础的概念,用于描述一组数据集中趋势的一种度量。对于给定的一组样本 \(\{x_1, x_2, \ldots, x_n\}\),其均值 \(\mu\) 可以通过以下公式计算得出: \[ \mu = \frac{1}{n} \sum_{i=1}^{n} x_i \] 这里,\(n\) 表示样本的数量,\(\sum_{i=1}^{n} x_i\) 表示所有样本值的总和。均值反映了样本数据的中心位置,它是衡量数据集中趋势最常用的指标之一。 #### 方差 方差是衡量数据分布离散程度的一个重要指标,它描述了数据点相对于其均值的偏离程度。方差越大,表示数据点之间的差异越大;反之亦然。对于给定的一组样本 \(\{x_1, x_2, \ldots, x_n\}\),其方差 \(Var(X)\) 的计算公式如下: \[ Var(X) = \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 \] 其中,\(\sigma^2\) 表示方差,\(\mu\) 是样本的均值,\(x_i\) 表示每个样本值。方差的平方根被称为标准差,是衡量数据离散程度的另一种常见方式。 #### 协方差 协方差用于描述两个随机变量之间的相关性。它衡量了两个变量的变化方向是否一致。如果两个变量的协方差为正,则表示这两个变量倾向于同方向变化;如果为负,则表示它们倾向于反方向变化。协方差的计算公式如下: \[ Cov(X,Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu_x)(y_i - \mu_y) \] 这里,\(Cov(X,Y)\) 表示变量 \(X\) 和 \(Y\) 的协方差,\(\mu_x\) 和 \(\mu_y\) 分别表示 \(X\) 和 \(Y\) 的均值。 #### 协方差矩阵 在多变量的情况下,协方差矩阵是一个非常有用的工具,它可以同时表示多个变量之间的协方差关系。对于 \(p\) 个变量的数据集,其协方差矩阵是一个 \(p \times p\) 的对称矩阵,其中对角线元素是各变量的方差,非对角线元素是相应变量之间的协方差。协方差矩阵的计算公式如下: \[ \Sigma = \begin{bmatrix} Var(X_1) & Cov(X_1,X_2) & \cdots & Cov(X_1,X_p) \\ Cov(X_2,X_1) & Var(X_2) & \cdots & Cov(X_2,X_p) \\ \vdots & \vdots & \ddots & \vdots \\ Cov(X_p,X_1) & Cov(X_p,X_2) & \cdots & Var(X_p) \end{bmatrix} \] #### 特征值与特征向量 在主成分分析(PCA)中,特征值和特征向量起着核心作用。对于一个矩阵 \(A\),如果存在一个非零向量 \(\xi\) 和一个标量 \(\lambda\) 满足 \(A\xi = \lambda\xi\),则称 \(\xi\) 为 \(A\) 的特征向量,\(\lambda\) 为对应的特征值。特征向量的方向决定了数据的主要变化方向,而特征值的大小则反映了这一方向上的变化幅度。 - **特征向量**:在 PCA 中,我们寻找那些能够最大化数据方差的向量。这些向量就是数据集的协方差矩阵的特征向量。 - **特征值**:特征值表示在对应特征向量方向上的方差大小。大的特征值意味着数据沿该方向的变化较大。 ### 应用案例 考虑一个简单的二维数据集 \(\{(x_1,y_1), (x_2,y_2), \ldots, (x_n,y_n)\}\)。假设我们已经计算出了协方差矩阵 \(\Sigma\),现在我们要找到数据集的主成分。 1. **计算协方差矩阵**:首先根据数据集计算出协方差矩阵 \(\Sigma\)。 2. **求解特征值与特征向量**:计算 \(\Sigma\) 的特征值和对应的特征向量。 3. **选择主成分**:按照特征值的大小降序排列,选取前几个特征向量作为主成分。这一步骤实现了数据降维,同时最大限度地保留了原始数据的信息。 4. **转换数据**:将原始数据投影到新的特征空间中,完成数据降维。 通过以上步骤,PCA 能够有效地识别出数据中的主要变化方向,并利用这些方向来构建一个新的低维空间,从而实现数据的压缩和降维,同时尽量保持数据原有的信息。这种方法广泛应用于图像处理、生物信息学、金融分析等多个领域。
剩余10页未读,继续阅读
- 粉丝: 162
- 资源: 6
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Matlab版本2023b的Embedded Coder Support Package for ARM Cortex-M Processors支持包免费分享,1.8G压缩包分成3个(2/3)
- ghostscript-10.0.0
- 医疗保障信息平台定点医药机构接口规范
- Python编程基础入门到高级开发技巧指南
- 手机充电头外观尺寸检测机工程图机械结构设计图纸和其它技术资料和技术方案非常好100%好用.zip
- JSP EIMS系统-OA子系统的设计与开发(源代码+LW).zip
- (JSP)JTBC_CMS_2.0.0.8.zip
- linux java jdk8
- Windows系统上Tomcat的安装与配置详解
- Linux-Shell基础命令语言
- 服装图像数据集,衣服图像数据,包含服装属性
- Matlab版本2023b的Embedded Coder Support Package for ARM Cortex-M Processors支持包免费分享,1.8G压缩包分成3个(3/3)
- glove11111wwee.pdf
- ECharts象形柱图-圣诞愿望清单和山峰高度-4.zip
- ECharts象形柱图-人体含水量-2.zip
- ECharts象形柱图-驯鹿的速度-6.zip