基于流形鉴别信息的特征选择及其结构化稀疏表示

114 浏览量 2021-01-13 22:18:32 上传评论收藏 1.33MB PDF 举报

资源推荐

资源详情

资源评论

第 31 卷第 7 期

Vol. 31 No. 7

控制与决策

Control and Decision

2016 年 7 月

Jul. 2016

基于流形鉴别信息的特征选择及其结构化稀疏表示

文章编号: 1001-0920 (2016) 07-1272-07 DOI: 10.13195/j.kzyjc.2015.0649

钱彬, 唐振民, 李雪, 徐威

(南京理工大学计算机科学与工程学院，南京 210094)

摘要: 针对启发式特征选择策略忽略了特征间相关信息导致子最优的问题, 提出一种基于流形鉴别信息的特征选

择 (MDFS) 算法. 该算法根据近邻信息和标签信息刻画高维数据类内和类间流形结构, 以最小化流形散度差为准则

构建目标函数, 并增加结构化稀疏正则项降低特征间冗余. 通过统一框架下的特征权重迭代优化获得最优特征子集.

在 ORL 库、COIL20 库、Isolet1 库上的聚类实验表明, MDFS 算法选取的特征子集相比传统算法具有更高的识别准确

率和归一化互信息, 验证了所提出算法的有效性.

关键词: 特征选择；流形学习；结构化稀疏；聚类

中图分类号: TP391 文献标志码: A

Feature selection based on manifold discriminant information and its

structured sparse representation

QIAN Bin, TANG Zhen-min, LI Xue, XU Wei

(School of Computer Science and Engineering，Nanjing University of Science and Technology，Nanjing 210094，China.

Correspondent：QIAN Bin，E-mail：311062198@njust.edu.cn)

Abstract: The traditional heuristic feature selection methods usually neglect the correlations between features, and thus

lead to suboptimal feature subset. Therefore, a method of manifold discriminant feature selection(MDFS) is proposed. The

method captures the manifold structure of the dataset by incorporating both neighbor and label information, and then the

objective function can be formulated by minimizing the difference between intra and inter scatters. Besides, the structured

sparse regularization term is further added to reduce the redundant information. Finally, a new iterative algorithm is presented

for optimization. The experimental results on three popular datasets, i.e., ORL, COIL20, and Isolet1 dataset, show that,

compared with existing related methods, the proposed method achieves better clustering performances in terms of accuracy

and normalized mutual information. Thus the effectiveness of the proposed method can be veriﬁed.

Keywords: feature selection；manifold learning；structured sparsity；cluster

0 引引引言言言

近年来, 随着大数据技术的日益发展, 数据降维

方法在计算机视觉、模式识别、生物基因技术等方面

起着越来越重要的作用

[1]

. 数据降维方法可以分为两

类: 特征抽取和特征选择. 特征抽取通过某些准则寻

找高维数据的低维子空间进行投影降维, 而特征选择

在不改变原始特征数据的基础上对特征进行筛选, 去

除冗余数据, 保留对于分类或识别具有重要意义的特

征. 因为特征选择在数据降维的同时没有改变特征的

物理意义, 所以基于特征选择的降维方法已被广泛应

用于各个领域

[2-5]

根据特征选择方法是否依赖于最终采用的学习

分类器, 可以分为两种类型: 封装式 (Wrapper) 和过滤

式 (Filter)

[6]

. Guyon 等

[7]

将支持向量机分类器应用于

基因特征选择; Michalak 等

[8]

提出了一种基于相关性

的封装式特征选择方法, 这类封装式的特征选择算法

需要依赖特定的分类器, 其计算复杂, 算法适应性较

差. 基于方差 (VAR) 的特征评判准则由于其计算简单

受到广泛使用, 但是没有考虑样本之间的依赖关系,

因而所选取的特征不具有良好的表示能力. He 等

[9]

提出了拉普拉斯排序 (LS) 算法, 该算法通过构建样本

拉普拉斯近邻图, 以特征局部保持能力为准则对样

收稿日期: 2015-05-24；修回日期: 2015-12-12.

基金项目: 国家自然科学基金项目(61305134, 90820306)；江苏省社会安全图像与视频理解重点实验室基金项目

(30920130122006).

作者简介: 钱彬(1989−), 男, 博士生, 从事计算机视觉、模式识别的研究；唐振民(1961−), 男, 教授, 博士生导师, 从事

智能机器人与目标识别、图像处理与模式识别等研究.

第 7 期

钱彬等: 基于流形鉴别信息的特征选择及其结构化稀疏表示

1273

本特征权重进行排序, 采用启发式策略逐个选取最优

特征构成特征子集, 但是这种方式没有考虑到特征

之间的相关性, 得到的特征子集并不能保证子集最

优. Nie 等

[10]

提出了一种基于迹比准则 (TRC) 的特征

选择方法, 通过构建类内和类间散度, 以迭代方式更

新特征权重, 可以一次性获得最优特征子集, 但是该

方法没有对特征权重进行有效约束, 所选取的特征存

在大量冗余信息. Cai 等

[11]

提出了一种多聚类特征选

择 (MCFS) 算法, 在谱回归 (SR) 的基础上对特征权重

加以 𝐿

范数约束, 使得特征呈现有效的稀疏化特性,

提高了特征局部保持能力, 有效减少了特征冗余信息,

但是该算法在实现时需要对多个特征向量进行谱回

归, 容易丢失有效鉴别信息, 并且最后对多个特征权

重向量融合的方法不能保证全局最优.

为了有效利用样本标签以及保持样本间邻域结

构关系, 本文提出了一种基于流形鉴别信息的特征选

择算法, 根据样本近邻信息和标签信息刻画类内和类

间流形结构, 以最小化流形散度差为准则, 使得选取

的特征具有良好的鉴别能力和流形结构保持能力, 同

时对样本特征权重矩阵采用 𝐿

2,1

范数

[12-13]

进行结构

化稀疏约束, 进一步减少数据间的冗余信息以提高特

征表示能力. 本文引入中间辅助变量采用梯度下降算

法对目标函数进行迭代优化, 针对样本个数和样本维

数的大小关系, 采用直接计算或谱嵌入

[11]

两种模式进

行求解.

1 相相相关关关工工工作作作

1.1 范范范数数数正正正则则则化化化

Cai 等

[11]

在谱回归的基础上增加 𝐿

范数正则化,

使得选取的特征权重向量趋于 0, 仅保留个别非 0 元

素作为最终选取的特征, 有效地减少了特征间冗余信

息, 并在降维的同时形成了特征向量良好的稀疏表示.

对于任意向量 𝒗 ∈ 𝑹

𝑑

, 其 𝐿

𝑝

范数定义如下:

∥𝒗∥

𝑝

(

𝑑

∑

𝑖=1

∣𝑣

𝑖

∣

𝑝

)

𝑝

. (1)

𝐿

𝑝

范数约束属于向量约束, 而常规的特征选择方法

往往将特征权重定义为投影矩阵形式, 通过寻找最优

鉴别子空间对矩阵进行权重更新, 这需要对矩阵进

行范数正则化. 通过谱回归可以规避这一问题, 但是

需要对多个回归向量进行特征融合, 其融合算法的优

劣会影响最终特征选择的结果. Nie 等

[13]

采用了 𝐿

2,1

范数对矩阵进行约束, 并给出了有效的收敛性证明.

对于任意矩阵 𝑴 ∈ 𝑹

𝑑×𝑛

, 𝑚

𝑖

表示 𝑴 的第 𝑖 行, 𝑚

𝑗

表示 𝑴 的第 𝑗 列. 矩阵 𝑴 的 𝐿

2,1

范数定义如下:

∥𝑴 ∥

2,1

𝑑

∑

𝑖=1

⎷

𝑛

∑

𝑗=1

𝑚

𝑖𝑗

𝑑

∑

𝑗=1

∥𝑚

𝑖

∥

. (2)

从式 (2) 的定义可以看出, 𝐿

2,1

范数对每列数据

进行 𝐿

范数的平方约束, 对于每行数据进行 𝐿

范数

约束, 形成了行数据之间的竞争, 使得行数据趋于 0,

仅保留个别非 0 行数据, 从而实现对于矩阵的结构化

稀疏约束.

1.2 拉拉拉普普普拉拉拉斯斯斯特特特征征征排排排序序序 (LS)

He 等

[9]

提出了拉普拉斯特征排序 (LS) 算法, 以

保持高维样本局部近邻关系为衡量特征权重的准则,

采用无监督方式逐个选取最优特征组成特征子集. 定

义第 𝑟 个特征的特征权重为 𝑙

𝑟

, 𝑓

𝑟,𝑖

表示第 𝑖 个样本的

第 𝑟 个特征, 其中 𝑖 = 1, 2, ⋅ ⋅ ⋅ , 𝑛. 对于第 𝑟 个特征, 定

义其特征向量 𝑓

𝑟

= [𝑓

𝑟,1

, 𝑓

𝑟,2

, ⋅ ⋅ ⋅ , 𝑓

𝑟,𝑛

]

, 算法步骤如

下.

Step 1: 构建 𝑛 个样本节点的近邻图 𝐺. 如果样本

𝑥

𝑖

属于样本 𝑥

𝑗

的近邻或者样本 𝑥

𝑗

属于样本 𝑥

𝑖

的近

邻, 则连接节点 𝑖 和 𝑗, 连接边权重设置为

𝑺

𝑖,𝑗

= e

−

∥𝑥

𝑖

−𝑥

𝑗

∥

𝑡

Step 2: 定义全 1 向量 1 = [1, 1, ⋅ ⋅ ⋅ , 1]

和对角矩

阵 𝑫, 对角线元素为 𝑫

𝑖𝑖

𝑛

∑

𝑗=1

𝑆

𝑖𝑗

, 即 𝑫 = diag(𝑺

对应的拉普拉斯矩阵为 𝑳 = 𝑫 − 𝑺. 对原始特征进行

平均值移除, 可以得到

𝑓

𝑟

= 𝑓

𝑟

−

𝑓

𝑟

𝑫

1. (3)

Step 3: 计算第 𝑟 个特征的特征权重为

𝑙

𝑟

𝑓

𝑟

𝑳

𝑓

𝑟

𝑓

𝑟

𝑫

𝑓

𝑟

. (4)

最后 LS 算法采用启发式策略逐个选取权重最大

的特征作为特征子集. LS 算法有效利用了高维样本

流形结构信息, 算法复杂度低, 计算简单, 但是仍存在

两个不足: 1) 在流形结构内没有有效利用样本标签

信息, 所选取的特征并不一定具有最佳的分类鉴别能

力; 2) 由于样本特征之间存在相关性, 采用启发式策

略逐个选取最优特征不能保证选取的特征子集具有

最优的分类性能.

2 基基基于于于流流流形形形鉴鉴鉴别别别的的的特特特征征征选选选择择择算算算法法法 (MDFS)

2.1 MDFS 算算算法法法原原原理理理

为了有效利用高维流形中的样本标签信息, 本文

提出一种基于流形鉴别的特征选择算法, 通过构建样

本类内和类间近邻图, 以流形散度差为根本准则, 在

低维空间内寻找类内最小、类间最大的鉴别投影矩

阵, 同时对投影矩阵进行 𝐿

2,1

范数约束, 使得特征之

间相互竞争, 消除特征冗余, 一次性获得最优特征子

集. 针对样本维数和样本个数的大小关系, 在统一的

迭代优化框架下提出两种解决方案, 以避免大规模矩

阵特征值分解的计算难度. MDFS 算法主要包含两部

剩余6页未读，继续阅读

评论收藏

内容反馈

weixin_38569515

粉丝: 2
资源: 1001

基于流形鉴别信息的特征选择及其结构化稀疏表示

结构化稀疏线性判别分析

使用结构化的稀疏表示来加速T2映射

具有融合罚约束的低秩结构化稀疏表示目标跟踪算法

Qt 5实现串口调试助手 （源工程文件、0积分下载）

【SystemVerilog】路科验证V2学习笔记（全600页）.pdf

AutoSAR标准协议4.2.2

光伏-储能并网系统仿真.rar

XCP协议的规范文档

GD32替换STM32注意事项.pdf

NPPJSONViewer.zip

蓝牙BLE协议中文版.pdf

CANoe通过CAPL脚本实现自动测试

电路分析基础第二版PDF电子书免费下载

qt样式表一键生成（花狗Fdog）

Tangent免费.rar

CMSIS-DAP使用说明及驱动.rar

VS2015安装证书，JavaScript_ProjectSystem.msi，JavaScript_LanguageService.msi

BaiduOCR.zip

Elsevier期刊word模板.zip

rpa拆包工具（小白适用）

电气类的visio模版元件库

软件需求规格说明书模板(超详细).doc

数字设计和计算机体系结构第二版奇数答案.pdf.zip

EPLAN部件库（正泰）

ISO14229汽车诊断协议文档

单相Boost功率因数校正（PFC）仿真（Simulink & Saber）

ISO26262汽车功能安全协议文档

最新资源

Qt 5实现串口调试助手（源工程文件、0积分下载）