【免费】流形学习技术自学材料（全包括）

共14个文件

pdf：13个

rar：1个

流形学习

自学材料

5星 · 超过95%的资源需积分: 0 91 浏览量 2009-06-14 11:38:21 上传评论 9 收藏 6.43MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

.rar （14个子文件）

流形学习技术

总论.pdf 9KB

文献汇总

[2005] 高维数据流形的低维嵌入及嵌入维数研究.pdf 327KB

[2000] nonlinear dimensionality reduction by locally linear embedding.PDF 368KB

[2004] Locality Pursuit Embedding.PDF 414KB

[2005] 基于放大因子和延伸方向研究流形学习算法.pdf 1.12MB

[2003] Hessian eigenmaps_ _ new Locally linear embedding techniques for high_dimensional data.PDF 351KB

[2008] Agent普适机器学习分类器.pdf 491KB

[2005] Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment.pdf 836KB

[2000] a global geometric framework for nonlinear dimensionality reduction.PDF 628KB

[2005] 一种改进的局部切空间排列算法.pdf 470KB

[2006] 流形学习概述.pdf 695KB

[2008] 基于流形学习的纤维丛模型研究.pdf 669KB

[2000] The Manifold Ways of Perception.PDF 955KB

制作备案.rar 5KB

第 28 卷　第 12 期

2005 年 12 月

计　　算　　机　　学　　报

CHINESE JOURNAL OF COMPU TERS

Vol. 28 No. 12

Dec. 2005

收稿日期:2004210215 ;修改稿收到日期 :2005207203. 本课题得到 IIPL2042014 、国家杰出青年科学基金

(

60325207

)

和国家自然科学基金

重大项目

(

60496320

)

资助. 何　力 ,男 ,1983 年生 ,博士研究生 ,研究方向为模式识别、统计学习、机器学习. E2mail : demonstrate @163.

com. 张军平 ,男 ,1970 年生 ,博士 ,研究方向包括模式识别、机器学习、数据挖掘、图像处理等. 周志华 ,男 ,1973 年生 ,博士 ,教授 ,博士生

导师 ,主要研究领域为机器学习、数据挖掘、模式识别、信息检索、神经计算、进化计算.

基于放大因子和延伸方向研究流形学习算法

何力

)

　张军平

)

　周志华

)

(

复旦大学计算机科学与工程系上海市智能信息处理重点实验室　上海　200433

)

(

中国科学院复杂系统与智能科学重点实验室　上海　200433

)

(

复旦大学数学科学学院计算机科学与工程系　上海　200433

)

(

南京大学软件新技术国家重点实验室　南京　210093

)

摘　要　流形学习是一种新的非监督学习方法 ,可以有效地发现高维非线性数据集的内在维数和进行维数约简 ,

近年来越来越受到机器学习和认知科学领域研究者的重视. 虽然目前已经出现了很多有效的流形学习算法 ,如等

度规映射

(

ISOMAP

)

、局部线性嵌套

(

Locally Linear Embedding ,LL E

)

等 ,然而 ,对观测空间的高维数据与降维后的

低维数据之间的定量关系 ,尚难以直观地进行分析. 这一方面不利于对数据内在规律的深入探察 ,一方面也不利于对

不同流形学习算法的降维效果进行直观比较. 文中提出了一种方法 ,可以从放大因子和延伸方向这两个方面显示出

观测空间的高维数据与降维后的低维数据之间的联系 ;比较了两种著名的流形学习算法

(

ISOMAP 和 LL E

)

的性能 ,

得出了一些有意义的结论 ;提出了相应的算法从而实现了以上理论. 对几组数据的实验表明了研究的有效性和意义.

关键词　流形学习 ;放大因子 ;主延伸方向 ;局部线性嵌套 ;等度规映射

中图法分类号 TP18

Investigating Manifold Learning Algorithms Based on

Magnification Factors and Principal Spread Directions

HE Li

)

　ZHAN GJ un2Ping

)

　ZHOU Zhi2Hua

)

(

Shanghai Key Laboratory of Intelligent Information Processing , Department of Computer Science and Engineering ,

Fudan University , Shanghai 　200433

)

(

Key Laboratory of Complex Systems and Intelligence Science , Chinese Academy of Sciences , Shanghai 　200433

)

(

Department of Computer Science and Engineering , School of Mathematical Sciences , Fudan University , Shanghai 　200433

)

(

National Laboratory for Novel Software Technology , Nanjing University , Nanjing 　210093

)

Abstract 　As a new unsupervised learning technique , manifold learning has captured the atten2

tion of many researchers in the field of machine learning and cognitive sciences. The major algo2

rithms include Isometric mapping

(

ISOMAP

)

and Locally Linear Embedding

(

LL E

)

. The ap2

proaches can be used for discovering the intrinsic dimensions of nonlinear high2dimensional data

effectively and aim researchers to analyze the data better. How to quantitatively analyze the rela2

tionship between the intrinsic dimensions and the observation space , however , has fewer report s.

And thus further works in manifold learning may have suffered some difficulties. The paper focu2

ses on two kinds of manifold learning algorithms

(

ISOMAP , LL E

)

, and discusses magnification

factors and principal spread directions from the observation space to the intrinsic low2dimensional

space. Also the corresponding algorithm is proposed. Experiments show the effectiveness and ad2

vantages of the research.

Keywords 　 manifold learning ; magnification factors ; principal spread directions ; locally linear

embedding ; isometric mapping

1 　引　言

机器学习的一大目标是要从数据中学习其相关

的规律性. 然而 ,不同的数据往往呈现出不同的特

点 ,这使得传统的机器学习方法难以直接用于分析

来源于真实世界的高维和非线性数据 ,如文本、图

像、语音等. 如何有效分析这些数据是机器学习、多

元数据分析和认知科学的研究重点. 研究高维非线

性数据集面临诸多困难 ,这主要是由于高维带来了

数据的稀疏和维数灾

[1 ]

,非线性使得我们不能利用

已有快速成熟的线性模型进行研究.

幸运的是 ,高维的数据集本身通常存在一定的

规律性. 例如 ,大量的实验表明人脸图像存在内在较

低的维数

(

见文献[2 ]

)

,同时 ,认知科学也发现人脸

图像具有低维流形的形式

[3 ]

. 换言之 ,进行数据分析

真正有用的可能并非高维的观测空间 ,可能只使用

较低维的非线性投影空间就可以获取我们需要的信

息

(

如数据的差异性、物理意义等

)

,亦即存在把高维

数据降维从而避开维数灾的可能性.

现有的维数约简方法中 ,如独立分量分析

[4 ]

、主

成分分析

[5 ]

对具有线性结构的数据集有着很好的效

果 ,另外小波

(

如 Gabor wavelet

)

、傅立叶变换、Had2

mard 变换一般应用于图像处理方向

[6 ]

也可以获得

不错的结果. 然而 ,独立分量分析假定数据集由内在

多个信源产生的信号叠加而成 ,根据信息论最小化

互信息来获得数据的线性结构 ,在问题的分析中 ,没

有考虑数据在观测空间的全局与局部性质. 主成分

分析寻找数据二阶统计性质来发现数据集的线性结

构 ,但是对于高度非线性分布的数据集 ,这一方法并

不能找到真正的分布结构. 傅立叶变换本质上是将

数据集变换到频域进行约简 ,小波变换增加了时域

信息 ,但是都缺乏几何上的直观解释. 因此 ,基于数

据分布的内在维数来分析数据是机器学习和多元数

据分析的重要研究方向 ,流形学习方法为我们提供

了一种新的研究途径.

流形学习的目的就是要发现高维数据集分布的

内在规律性. 它的基本思想是 ,高维观测空间中的点

是由少数独立因素

(

变量

)

的共同作用在观测空间张

成一个流形 ,我们如果能有效地展开观测空间卷曲

的流形或发现内在的主要变量 ,就可以对该数据集

进行降维. 近年来 ,流形学习领域产生了大量的研究

成果 ,具体的内容可参考文献[ 7 ,8 ]. 其中的两个主

要算法是等度规映射

(

Isometric Mapping , ISOMAP

)

和局部线性嵌套算法

(

Locally Linear Embedding ,

LL E

)

. ISOMA P 是从保持全局结构的角度出发 ,应

用图论的知识完成维数约简 ;LL E 则是从保持局部

线性假设出发 ,用一点的邻近点的线性组合表示该

点 ,从而做到维数的约简.

然而对于从高维空间映射到低维空间的变换的

性质 ,如相邻数据在高维空间的扩展程度和主要变

化方向 ,没有一般性的研究 ,这使得对流形学习机理

及有效性的进一步分析变得相对困难. 扩展程度即

低维空间的局部数据集在高维的扩散程度 ,而主要

变化方向是指流形主要的延伸方向. 这两个定量分

析技术可以帮助我们更好地分析流形学习算法和其

它维数约简方法. 本文在对维数约简方法进行了简

要的综述以后 ,在第 2 节简要地介绍了两个重要的

流形学习算法 : ISOMA P 和 LL E ;在第 3 节从放大

因子和延伸方向的角度 ,分析了从观测空间映射到

低维空间的两个性质 ,这也是我们这篇文章的重要

的理论部分 ;第 4 节我们引入了 RBF

(

Radial Basis

Function

)

方法 ,得到一种生成性模型 ,从而获得一种

计算放大因子和延伸方向行之有效的办法. 在第 5 节

我们依照上面的理论 ,基于放大因子和主要变化方

向分析了 ISOMAP 和 LL E ,比较了两者的不同 ,实

验结果表明了我们原来工作

[9 ]

的意义. 最后 ,我们对

本文的研究进行了总结和讨论.

2 　ISOMAP 与 LLE

为了使读者更清楚地了解本文的工作 ,我们将在

这一部分简要地介绍 ISOMAP 与 LL E 两种算法.

ISOMAP 与 LL E 这两种约简算法主要的假设

是 :数据在观测空间中的距离关系仅在局部可使用

欧氏度量. 特别的 , ISOMA P 认为全局度量需通过

测地线来描述 ,同时也假定了由少数独立因素产生

的数据集在高维空间形成了非线性流形

①

. 但是

LL E 利用局部线性逼近进行维数约简. 我们将在后

面的实验中比较两种由于算法不同带来的不同结

果. 为了更好地描述这两种算法 ,在这里我们首先给

出一些约定.

2. 1 　约　定

R : 实数集.

: 高维的数据点空间 R ×…×R ,共 N 个 R

相乘.

: 约简后低维的数据点空间 ,显然 N > d.

1002

12 期何　力等 :基于放大因子和延伸方向研究流形学习算法

①

这种称谓常见于计算机科学论文中 ,主要是为了强调数据

分布不能使用线性结构来描述 ,后同.

: 高维空间的原始数据点

(

列向量

)

, 显然

∈R

: 约简后低维空间中的点

(

列向量

)

∈R

n : 数据点的总数 ,所以 i = 1 ,2 , …,n.

(

)

: 数据点 x

的第 j 个分量 ,j = 1 ,2 , …,N.

(

)

: 数据点 z

的第 j 个分量 ,j = 1 ,2 , …,d.

⊥

: 表示矩阵 A 的转置.

A ∈M

m ,n

: 表示矩阵 A 是一个 m ×n 的矩阵.

X: 表示所有观测空间

(

高维

)

数据点组成的矩

阵 ,即 X =

(

, …,x

)

Z: 表示所有嵌入空间

(

低维

)

数据点组成的矩

阵 ,即 Z =

(

, …,z

)

x :表示 x ∈R

到原点的欧氏距离 ,即

∑

j = 1

(

)

det A :求方阵 A 的行列式.

〈x ,y〉: x 和 y 的内积.

MF : 放大因子.

rank A : 矩阵 A 的秩.

di ag{a

, …,a

} : 由a

, …,a

组成对角线

的对角矩阵.

2. 2 　ISOMAP 算法简述

ISOM A P 先使用一种方法确定每一点的邻域 ,

如 K2近邻方法 ,即寻找在观测空间欧氏距离下最近

的 K 个点或者阈值的方法 ,即认为某个半径以内的

所有点为近邻 ;然后认为近邻点是互相连接的从而

得到一个部分连接的图 ,再利用上一步得到的相连

接点的距离构造出来邻接矩阵 ,接着使用最短路算

法

①

计算所有点之间的距离 ,得到每两点之间的距

离 ,写成一个矩阵 D ∈M

n ,n

. 可以认为 ,我们描述的

距离是最短路径的测地线距离逼近. 最后使用经

典的多尺度分析算法

(

M ultidimensional Scaling ,

M DS

)

对该矩阵处理 ,得到高维数据集在低维空间

中的相应坐标.

经典的 M DS 的算法有以下几步 :

1. 计算 S ∈M

n ,n

,若 D =

(

i ,j

)

,S =

(

i ,j

)

,则 s

i ,j

= d

i ,j

2. 取矩阵 H =

(

i ,j

)

∈M

n ,n

满足

i ,j

其中的

i ,j

是 Kronecker 符号 ,满足

i ,j

0 , i ≠j

1 , i = j

3. 计算

τ(

)

= -

HSH

∈M

n ,n

,这步计算叫双中心化

(

double centering

)

4. 对

τ(

)

做 SV D

(

Singular V alue Decom position ,奇

异值分解

)

,因为矩阵

τ(

)

对称 ,即有

τ(

)

= U

⊥

U. 其中 U

是一个正交矩阵 ,而

为一个奇异值为从大到小排列的对

角阵. 这里必然有

对角线元素非负.

5. 计算 Z ∈M

d ,n

,取 U 的前 d 行和前 n 列组成的 U

的前 n 行前 n 列组成的

∈M

d ,d

,并对

开算术平方

(

对

对角线元素依次取算术平方根

)

得

,而 Z = U

2. 3 　LLE 算法简述

L L E 是一种依赖于局部线性的算法 ,它认为在

局部意义下 ,数据的结构是线性的 ,或者说局部意义

下的点在一个超平面上 ,因此任取一点 ,可以使用它

的邻近点

(

邻近点的取法同上 ,这里使用 K2近邻的

方法

)

的线性组合来表示出这一点 ,并且把线性组合

的权值组成一个权值矩阵 W ,对 W 进行约束限制.

W =

(

i ,j

)

∈M

n ,n

是这样的权值矩阵 ,如果 x

与 x

不相邻 ,则 w

i ,j

= 0 ,设 x

与 x

(

k = 1 ,2 , …, K

)

是相邻的 ,则有约束

∑

k = 1

= 1.

我们知道 ,使用 XW 与 X 相比较 ,两者有一定的差

值 ,定义矩阵的 Frobenius 范数如下 : A =

(

i ,j

)

∈

m ,n

,则

∑

i = 1

∑

j = 1

i ,j

(

)

要求寻找 W 使得

min

W ∈M

n ,n

X - X W

(

)

这相当于解一系列的最小二乘问题的解. 如对 x

而

言 ,由下面的方程组可以获得 w

∑

k = 1

= 1

= x

(

)

利用权值矩阵 W ,我们可以在低维空间 R

中

寻找合适的 z

,最小化

min

Z ∈M

d ,n

Z - ZW

(

)

2. 4 　ISOMAP 和 LLE算法的简单比较

可以看出 , ISOM A P 是利用最短路径逼近测地

线 ,对整体流形的拓扑结构保护不错; L L E 却是从

局部着手 ,以局部线性来保持整体的拓扑结构. 由于

IS OMA P 对局部把握是依靠最短路径

(

离散的作

法

)

,所以在 K 选择不当的时候也许会产生不稳定 ;

而 L L E 没有考虑整体 ,那么将整体映射到嵌入空间

时 ,对流形的形态就很可能出现扭曲 ,也许需要手工

纠正.

从算法上面 ,我们可以分析出一些 IS OMA P

与 L L E 的不同之处 ,但是这些不同只是一个直观印

2002

计　　算　　机　　学　　报 2005 年

①

如 Dijkstra 算法.

评论收藏

内容反馈

Yanni_vip

2013-04-03

资料很有用，包括science上的经典文献，很好
wcy096040589

2015-05-13

资料很有用，包括science上的经典文献，很好
大老唐

2013-11-23

很全面！有价值！
良少

2019-10-13

资料很有用，包括了science上的经典文献，
rsegun

2014-06-30

特别好的流形学习的资料

前往

页

huxiaoyuan

粉丝: 0
资源: 15

流形学习技术自学材料（全包括）

流形学习问题manifold study

最全的流形学习代码

流形学习算法例子

流形学习介绍

流形学习专题介绍

流形学习概述

基于流形学习的Matlab代码.zip_matlab 流形学习_基于Matlab的流形学习的开发代码_流学习_流形学习 matl

流形学习manifoldlearning介绍-manifold learning.ppt

流形学习最全matlab代码mani.m

流形学习及其在人脸识别中的应用

最全的流行学习算法.rar_流形_流形学习_流形学习算法_流行学习_流行学习算法

流形学习方法在图像处理中的应用研究

何晓飞--流形学习

流形学习及matlab程序part2

论文研究-基于流形学习的多核SVM财务预警方法研究.pdf

论文研究-基于参数化流形学习的压缩传感重构方法.pdf

mainfold-learning.zip_流形_流形matlab_流形学习_流形学习 matlab_流形学习MATLAB

一种基于QPSO优化的流形学习的视频人脸识别算法.pdf

论文研究-流形学习算法综述.pdf

流形学习工具箱

Qt 5实现串口调试助手 （源工程文件、0积分下载）

【SystemVerilog】路科验证V2学习笔记（全600页）.pdf

AutoSAR标准协议4.2.2

光伏-储能并网系统仿真.rar

NPPJSONViewer.zip

GD32替换STM32注意事项.pdf

XCP协议的规范文档

VS2015安装证书，JavaScript_ProjectSystem.msi，JavaScript_LanguageService.msi

CANoe通过CAPL脚本实现自动测试

最新资源

Qt 5实现串口调试助手（源工程文件、0积分下载）