·
1
·
云南大学数学与统计学院
《数据挖掘与决策支持实验》上机实践报告
:数据挖掘与决策支持实验
:
级
:
:彭程
:刘鹏
信息与计算科学
:实现基于主成分分析的特征提取
:
:
:03
:
一、实验目的
学习使用 R 语言进行数据离散化。
二、实验内容
初始数据集为 Iris 鸢尾花数据。实现基于主成分分析的特征提取。
三、实验平台
Windows 10 Pro 1803;
Microsoft
©
Visual Studio 2017 Enterprise。
Version 1.1.442 – © 2009-2018 RStudio, Inc.
四、算法设计
在多元统计分析中,主成分分析(英语:Principal components analysis,PCA)是一种分析、简化数据
集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通
过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这
也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很
大。
主成分分析由卡尔·皮尔逊于 1901 年发明,用于分析数据及建立数理模型。其方法主要是通过对协方
差矩阵进行特征分解,以得出数据的主成分(即特征向量)与它们的权值(即特征值。PCA 是最简单的以
特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值
对方差的影响最大?换而言之,PCA 提供了一种降低数据维度的有效办法;如果分析者在原数据中除掉最
小的特征值所对应的成分,那么所得的低维度数据必定是最优化的(也即,这样降低维度必定是失去讯息
最少的方法)。主成分分析在分析复杂数据时尤为有用,比如人脸识别。
PCA 是最简单的以特征量分析多元统计分布的方法。通常情况下,这种运算可以被看作是揭露数据的
内部结构,从而更好的解释数据的变量的方法。如果一个多元数据集能够在一个高维数据空间坐标系中被
评论0