摘 要 流形学习方法作为一类新兴的非线性维数约简方法,主要目标是获取高维观测数据的 低维紧致表示,探索事物的内在规律和本征结构,已经成为数据挖掘、模式识别和机器 学习等领域的研究热点。流形学习方法的非线性本质、几何直观性和计算可行性,使得 它在许多标准的 toy 数据集和实际数据集上都取得了令人满意的结果,然而它们本身还存在着一些普遍性的 问题,比如泛化学习问题、监督学习问题和大规模流形学习问题等。因此,本文从流形 学习方法存在的问题出发,在算法设计和应用(图像数据与蛋白质相互作用数据)等方 面展开了一系列研究工作。首先对流形学习的典型方法做了详细对比分析,然后针对流 形的泛化学习和监督学习、表征流形的局部几何结构、构造全局的正则化线性回归模型 、大规模数据的流形学习等几个方面进行了重点研究,提出了三种有效的流形学习算法 ,并和相关研究成果进行了理论与实验上的比较,从而验证了我们所提算法的有效性。 关键词:流形学习,维数约简,正交局部样条判别投影,局部多尺度回归嵌入 目录 目录 2 第1章 研究背景 3 1.1 流形学习的研究背景 3 1.2 流形学习的研究现状 4 1.3 流形学习的应用 6 第2章 流形学习方法综述 7 2.1 流形学习方法介绍 8 第3章 流形学习方法存在的问题 11 3.1 本征维数估计 11 3.2 近邻数选择 12 3.3 噪声流形学习 12 3.4 监督流形学习 13 第4章 总结 13 研究背景 1 流形学习的研究背景 随着信息时代的到来,使得数据集更新更快、数据维度更高以及非结构化性等问题更 突出。在科研研究的过程中不可避免地遇到大量的高维数据,这就需要一种技术能够使 在保持数据信息足够完整的意义下从海量数据集中提取出有效而又合理的约简数据,满 足人的存储需求和感知需要。流形学习这一非监督学习方法应运而生,引起越来越多机 器学习和认知科学工作者的重视。而在海量的高维数据中,往往只有少量的有用信息, 如果想快速高效的搜集到人们想要的、有用的那些少量信息且快速的处理信息,这就需 要一些关键技术的支持,即是必须采用相应的降维技术。而流形学习正是在数据降维方 面有着重要的贡献。然而,降维的过程与《矩阵分析》中的内容有着密切的关系。 基于流形的降维方法能充分利用数据中所隐藏的低维有价值信息,进一步提高检索性 能。Seung从神经心理学的角度提出"感知以流形的形式存在,视觉记忆也可能是以稳态 的流形存储",为流形提供了与人类认识相关的理由。流形学习的方法主要有主成分分析 (PCA)、多维尺度化(MDS)、基于局部切空间排列法(LTSA)和基于等度规映射(IS OMAP)、局部线性嵌入算法(LLE)、拉普拉斯特征映射(LE)等。另外,流形学习方法 在人脸识别、图像处理、模式识别、计算机视觉、认知科学、人工智能、人机交互等众 多学科中有着广泛的应用。 线性维数约简方法是通过在高维输入空间与低维子空间之间建立线性映射关系,把高 维数据样本集投影到低维线性子空间。线性维数约简技术通常假设数据集采样于一个全 局线性的高维观测空间。如果所要处理的数据集分布确实呈现出全局线性的结构,或者 在一定程度上可以近似为全局线性结构,则这些方法能够有效地挖掘出数据集内在的线 性结构,获得数据紧致的低维表示。在线性维数约简方法中,使用最广泛的算法有主分 量分析(Principal Component Analysis, PCA)(Jolliffe, 2002; Turk and Pentland, 1991)和线性判别分析(Linear Discriminant Analysis, LDA)(Duda et al., 2001)。 主分量分析(PCA)主要是根据高维数据在低维空间重构误差最小的原则,来寻找一 组最优的单位正交向量基(即主分量),并通过保留数据分布方差较大的若干主分量来 达到降维的目的。然而,众所周知,由于 PCA 算法没有利用数据样本的类别信息,所以它是一种非监督的线性维数约简方法。与 PCA 算法不同,LDA 算法考虑到样本的类别信息,它是一种有监督的方法。基于各类样本服从高斯分布且不 同类的协方差矩阵相同的假设,LDA 算法在 Fisher 准则下选择最优的投影向量,以使得数据样本的类间散度最大而类内散度最小。由于 LDA 算法利用了样本的类别信息,而样本的类别信息通常有助于改善识别率,因此 LDA 算法更适用于分类问题。 2 流形学习的研究现状 流形学习假定输入数据是嵌入在高维观测空间的低维流形上,流形学习方法的目的是 找出高维数据中所隐藏的低维流形结构。经过十多年的研究与探索,人们提出了大量的 流形学习理论与算法。经典的流形学习方法有等距特征映射算法(ISOMAP)(Tenenbaum et al., 20
剩余14页未读,继续阅读
- 粉丝: 168
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助