没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
随着技术的进步, 数据采集的效率逐渐提高, 使得数据的规模越来越大、复杂性越来
越高. 在大多数情况下, 这些高维数据都存在着能够保留大部分有效信息的低维子空间, 如
何移除高维空间中的噪声和无关信息, 提高后续学习算法的性能和效率一直是模式识别和
机器学习领域的研究热点. 在过去的几十年中涌现出了许多优秀的算法, PCA
[1]
是其中最经
典的方法之一, 它通过线性变换把数据投影到一个新的坐标空间中, 希望用较少的变量来表
示原数据所提供的大部分信息. PCA 逐渐发展为多种应用的预处理技术方法, 如图像识别、
生物信息和数据挖掘
[2-4]
. 由于其用途广泛且原理简单, 研究者们陆续提出了各种改进的
PCA 算法. Koren 等
[5]
提出的 WPCA 使用了加权距离来减轻离群点对投影方向的影响, 突出
了与主成分相关的特征; Schölkopf 等
[6]
通过非线性映射将原始数据映射到高维特征空间, 再
执行 kernel-PCA 以提取特征; 李春娜等
[7]
极大化带有稀疏正则项的 LpLp 模样本方差, 同时
赋予算法鲁棒性和稀疏性.
衡量算法的优劣, 一个重要的指标就是鲁棒性, 尽管基于 LL2 模的 PCA 能够解决许多
问题, 但并不能有效地处理小样本问题中的离群点
[8]
, 因为 LL2 模的非线性变化特征会放大
离群点所带来的影响, 使算法倾向于保留外围结构. 为了减轻异常点的负面影响, 目前已经
提出了各种增强鲁棒性的解决方案. LL1 模被认为是增强算法鲁棒性的有效手段之一. Ke 等
[9]
提出了 LL1-PCA 算法, 通过极小化基于 LL1 模的重建误差来提取主成分; Kwak
[10]
则在特
征空间中极大化对应的 LL1 模并利用贪婪算法求解模型; 在此基础上, Nie 等
[11]
提出了一种
非贪婪迭代算法能够得到比贪婪算法更好的结果.
尽管基于 LL1 模的 PCA 鲁棒性较强, 但是由于计算代价大, 而且不具有旋转不变性
[12]
. 因此, 大量具有旋转不变性的鲁棒 PCA 算法相继出现, 这些方法通过采用不同的准则
函数或者优化算法来降低异常点对损失函数的影响, 以提高主成分分析过程中对于异常点
的鲁棒性. He 等在文献[13]中将 PCA 的均方误差(MSE)准则修改为最大熵(MaxEnt)准则来
尽可能地保留数据的不确定性; 进而在文献[14]中提出 HQ-PCA, 使用最大相对熵准则
(MCC)代替 MSE, 并采用半二次(Half-Quadratic)优化将原问题转换为一系列二次规划问题
进行求解. HQ-PCA 提高了算法对于噪声的鲁棒性, 同时保留了平移与旋转不变性; He 等在
文献[15]中基于数据的子空间属性, 分析了鲁棒低秩矩阵恢复方法和基于 MM 估计的鲁棒
主成分分析方法之间的联系, 提高主成分提取过程中对任意噪声的处理能力; Ding 等
[16]
使用
旋转不变的 R1 模构造重建误差, 在一定程度上抑制了离群点的影响, 但是该方法依赖于投
影空间中的维数; Nie 等
[17]
在此基础上提出了 RPCA-OM, 计算了在 R1 范数下的最优均值并
能够自动删除最优的数据均值; 受此启发, 许多鲁棒 PCA 采用 LL21 模作为鲁棒降维的有
效手段. Nie 等
[18]
基于 LL21 范数最大化在理论上与重构误差最小化的关联性提出了 PCA-
LL21, 并设计了一种有效的非贪婪优化算法来求解相关的最大化问题; Wang 等
[19]
将 LL21
模的距离度量扩展为 L2,pL2,p, 可针对不同的数据选择适当的 pp 以达到更好的效果; 但以
上鲁棒 PCA 算法缺乏考虑重建误差和投影数据描述方差之间的关系, 在主成分提取的过程
中容易造成判别信息的丢失. 对此, Wang 等
[20]
提出的 Angle PCA 方法通过最大化每个样本
点的描述方差和重建误差之间的比率来确定主成分空间, 通过每个数据点与主成分方向的
偏移角度进行加权, 但其权值的变化呈余切函数的快速非线性变化特征, 导致其过度强调局
部特征, 所提取的主成分泛化性能弱.
基于此, 本文提出了鲁棒自适应概率加权主成分分析(RPCA-PW). RPCA-PW 基于样本
点的重建误差与描述方差在 L2,pL2,p 模下的变化关系确定每个样本点的可靠性程度. 其核
心是选择主成分空间及其补空间作为参考, 通过分析样本点与这两个描述空间的相似度来
确定主成分空间及其补空间对数据描述的不确定性, 结合交替迭代的优化算法, 从而能够在
降维过程中自适应地降低噪声和异常样本点的影响. 本文提出的方法不仅对离群点具有鲁
棒性, 并可针对不同数据集选择合适的 pp 以达到更好的效果, 本文将在人工数据集、UCI
数据集和人脸图像数据库上进行实验, 进而证明本文所提出算法的有效性.
1. 相关工作
1.1 PCA
考虑如下样本矩阵: X=[x1,x2,⋯,xn]∈Rd×nX=[x1,x2,⋯,xn]∈Rd×n, 其中 nn 和 dd 分别为
样本数量和维数. 不失一般性, 这里假设 X=[x1,x2,⋯,xn]X=[x1,x2,⋯,xn]已经去中心化, 即
∑ni=1xi=0∑i=1nxi=0, 定义投影矩阵 W∈Rd×m(m<d)W∈Rd×m(m<d), 其中 mm 是降维后的
维数. 从均方差的角度来看, PCA 通过求解以下优化问题, 使得投影空间中样本点的方差最
大化:
maxWTW=I∑i=1n∥∥WTxi∥∥22maxWTW=I∑i=1n‖WTxi‖22
(1)
其中, II 是单位矩阵, 因为
∥∥xi−WWTxi∥∥22+∥∥WTxi∥∥22=∥xi∥22‖xi−WWTxi‖22+‖WTxi‖22=‖xi‖22, 因此通过简单的变
换可以得到式(1)的另一种等价形式:
minWTW=I∑i=1n∥∥xi−WWTxi∥∥22minWTW=I∑i=1n‖xi−WWTxi‖22
(2)
由式(1)和式(2)可知, 由于 LL2 模对离群点敏感, 传统 PCA 对噪声的鲁棒性不强, 噪声
的存在会使得 PCA 的计算结果会出现很大的误差.
1.2 L2,pL2,p-PCA
L2,pL2,p-PCA 采用 L2,pL2,p 模作为重建误差的距离度量, 可针对不同的数据选择适当
的 pp 以达到更好的效果. L2,pL2,p-PCA 不仅能在一定程度上削弱噪声点的影响, 而且还保
留了 PCA 所需的特性, 如旋转不变性. 此外, 基于 L2,1L2,1 模的鲁棒 PCA 可作为 L2,pL2,p-
PCA 的特例. L2,pL2,p-PCA 的目标函数定义为:
minWTW=I∑i=1n∥∥xi−WWTxi∥∥p2minWTW=I∑i=1n‖xi−WWTxi‖2p
(3)
L2,pL2,p 模的非线性函数特征在一定程度上降低了噪声和异常样本点的影响力, 但是
仍然不能完全剔除噪声和异常样本点的影响. 究其原因, L2,pL2,p-PCA 的根本特征在于仅考
虑了样本点与数据簇整体统计特征的偏差程度(bias), 但没有考虑噪声点与可靠数据点在不
同的子空间属性下潜在的可分性, 从而造成判别信息的丢失.
1.3 Angle PCA
Angle PCA 采用 L2L2 模来构造投影数据的重建误差和描述方差, 通过最大化方差和
重构误差之比来确定投影矩阵, 即 Angle PCA 通过求解以下目标函数来确定主成分:
maxWTW=I∑i=1n∥∥WTxi∥∥12∥∥xi−WWTxi∥∥12maxWTW=I∑i=1n‖WTxi‖21‖xi−WWTxi‖21
(4)
根据∥∥WTxi∥∥22+∥∥xi−WWTxi∥∥22=∥xi∥22‖WTxi‖22+‖xi−WWTxi‖22=‖xi‖22, 若将
∥xi∥12‖xi‖21 视为直角三角形的斜边, 则∥∥WTxi∥∥12‖WTxi‖21 和
∥∥xi−WWTxi∥∥12‖xi−WWTxi‖21 分别为直角三角形的两条直角边, 令直角边
∥∥WTxi∥∥12‖WTxi‖21 与斜边∥xi∥12‖xi‖21 的夹角为 αiαi, 观察模型(4)可知, 求和函数中的每
一项是第 ii 个数据的重建误差与协方差之间角度的余切值, 即
∥∥WTxi∥∥12∥∥xi−WWTxi∥∥12=cotαi‖WTxi‖21‖xi−WWTxi‖21=cotαi
(5)
因此, 目标函数(4)被称为 Angle PCA. 通过对样本点迭代加权的方式来降低噪声和异
常样本的影响. 这种建模方式的核心是能够减少重建误差较大样本点产生的损失, 从而提升
对噪声的鲁棒性. 但 cotαicotαi 的非线性快速衰减特征造成了 Angle PCA 对数据的全局
结构特征提取能力差. 例如: 当样本点与主成分方向之间的夹角增大时, cotαicotαi 迅速减
小, 使得主成分对数据的局部结构特征描述能力强, 但是对数据的全局结构特征描述能力
差. 这一特征造成 Angle PCA 最优解的稳定性差, 对初始投影矩阵 WW 的选取依赖性很强.
例如: 当模型的初始 WW 选择恰当时, 则 Angle PCA 对噪声点具有很强的鲁棒性, 若初始
WW 确定的投影方向与实际主成分方向垂直的时候, 式(5)起到的作用则正好相反, 表现为
突出非主成分样本点在模型中所占的比重(此时非主成分样本点的重建误差很小).
2. 鲁棒自适应概率加权主成分分析
为了能够充分考虑重建误差和投影数据描述方差之间的联系, 并根据数据主要统计特
征及其互补信息确定各样本点的可靠程度, 在提取主成分的过程中, 提高可靠度较高样本点
的影响力, 同时削弱可靠度较低样本点的影响程度, 本文建立以下 RPCA-PW 模型:
maxWTW=I∑i=1n(∥∥WTxi∥∥p2−1−aiai+ε∥∥xi−WWTxi∥∥p2)maxWTW=I∑i=1n(‖WTxi‖2p−1−aiai+ε‖xi−WWTxi‖2p)
(6)
其中, 0≤ai≤10≤ai≤1, εε 为一个较小的正数常数, 目的是防止分母为 0. 令
1−aiai+ε=δi1−aiai+ε=δi, 则式(6)变为:
maxWTW=I∑i=1n(∥∥WTxi∥∥p2−δi∥∥xi−WWTxi∥∥p2)maxWTW=I∑i=1n(‖WTxi‖2p−δi‖xi−WWTxi‖2p)
(7)
模型(7)中采用了 L2,pL2,p 模作为度量标准, 不仅可以降低噪声的影响, 而且具有旋转
不变性, 改变 pp 值的大小可应用于不同类型的数据集, 大大提高了算法的灵活性和鲁棒性.
为了提高 RPCA-PW 对数据全局结构特征的描述能力和对噪声的鲁棒性, 需要模型(7)
中 δiδi 满足以下要求:
1) 能够反映出样本点的可靠性(不确定性). 对于可靠样本点, δiδi 应取较大的值, 对于
噪声和异常样本点, δiδi 应取较小的值, 通过分析样本点的不确定性削弱噪声和异常值的影
响.
剩余19页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 4452
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 一个利用Java编写的,基于swing组件的连连看小游戏.zip
- 一个简易的对对碰游戏软件,运用Java、Java FX技术.zip
- 一个基于JAVA的类魔塔小游戏 a Java based MagicTowerlike game.zip
- 基于java多线程的一款小游戏.zip学习资料
- jsoniter (json-iterator) 是一款快速灵活的 JSON 解析器,可用 Java 和 Go 编写.zip
- 基于Java Swing实现的飞机大战游戏.zip
- 基于Java swing的拼图游戏,两种玩法(数字和图片).zip
- 基于java swing开发的小游戏.zip
- 动物位移小游戏Java实现,强行使用上了SQLite和MyBatis.zip
- 叠罗汉游戏,安卓java实现,自定义Framlayout,属性动画.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功