、相关工作
在这一节中,本文讨论一些现存的子空间分割方法。一般的现存的方法可以分为如下
的四个主要的种类:高斯混合模型、分解、代数和光谱型的方法。
在概率学习中,混合的数据典型的被建模为来自于混合概率模型的一个独立样本集。
因为单独的子空间可以表示为一个(退化的)高斯分布,那么可以进一步假设每一个概率
分布都是高斯分布,比如说采用混合高斯模型。然后数据分割问题就转换为一个模型估计
问题。这种估计可以使用期望最大化方法("#)来找到最大的邻域估计,或者通过迭代找
到最小最大估计(如 $和随机样本合一 %&&')。这
些方法对‘很敏感。所以一些工作用来提高她们的稳定性,比如说 (#%$
)*+$(*+,-,.%*/+%0
'0((1&23这些方法可能会引进一些鲁棒性。然
而,这个问题仍然没有得到很好的解决由于优化的难度。这也是这些方法的一个瓶颈。
基于分解的方法试图将给定的数据矩阵看作两个矩阵的和。为了对噪声具有鲁棒性,
这些方法修改公式(增加额外的正则项)。然而,这样的修改通常导致非凸优化问题,就
需要启发式的算法来解决(通常基于交替最小化或者 "# 算法)。陷入局部极值的问题可
能破坏效果,特别是当数据严重损坏。低秩表示将被看作是文献【】4文章中看作 5.,
方法6中方法的鲁棒性归纳。低秩表示的公式是凸的而且可以在多项式时间内解决。
广义主成份分析提出了一种代数方法对来自多子空间的数据建模。这种方法使用多项
式在这个点的梯度来描述包含一个数据点的子空间。然后使用子空间分割也就是多项式拟
合。广义主成份分析在特定的条件下可以确保成功的分割,而且在子空间不引入任何限制
然而,这种方法对噪声敏感,由于从真实数据中估计多项式是困难的,而且计算也要花费
很大的时间。目前,鲁棒代数分解(,)被提出用来解决广义主成份分析(GPCA)
的鲁棒性。然而,拟合多项式的计算复杂度是很大的。所以 , 只有在数据维度低和子空
间个数小的情况下有用。
作为一个数据聚类问题,子空间分割可以首先从给定的数据中学习一个亲和度矩阵,
然后得到通过特殊的聚类算法( 比如归一化割(-))得到分割的结果。许多现有的
方法,例如稀疏子空间聚类,光谱曲线聚类,低秩表示等。主要的区别是学习亲和度矩阵
的方法。在数据是干净的且子空间是独立的假设下,【】表明稀疏表示的方法可以达到
所谓的 子空间检测性能(75):类内亲和力是稀疏的,类间亲和力都是 !。在异
常值存在的情况下,【/】指出 方法可以遵循 75。然而,75 可能对确保子
空间分割成功性不充分。当前,【】证明在一定的条件下,多子空间结构可以通过
最小化精确的恢复。然而,既然这个方法是非凸的,如何有效的得到全局最优化解仍然是
未知的。相比之下,低秩表示的模式是凸的,而且相应的优化问题可以在多项式时间内解
决。而且,尽管数据被异常值污染,所提出的低秩表示被证明精确的恢复正确的行空间,
被证明决定子空间分割的结果(在 中讨论)。对于任意‘的存在,低秩表示可以
得到近似的恢复。
III、准备工作和问题声明
A、 主要符号总结
在本文中,矩阵用大写字母表示。特别的 表示单位矩
评论0
最新资源