第 31 卷 第 7 期
Vol. 31 No. 7
控 制 与 决 策
Control and Decision
2016 年 7 月
Jul. 2016
基于流形鉴别信息的特征选择及其结构化稀疏表示
文章编号: 1001-0920 (2016) 07-1272-07 DOI: 10.13195/j.kzyjc.2015.0649
钱 彬, 唐振民, 李 雪, 徐 威
(南京理工大学 计算机科学与工程学院,南京 210094)
摘 要: 针对启发式特征选择策略忽略了特征间相关信息导致子最优的问题, 提出一种基于流形鉴别信息的特征选
择 (MDFS) 算法. 该算法根据近邻信息和标签信息刻画高维数据类内和类间流形结构, 以最小化流形散度差为准则
构建目标函数, 并增加结构化稀疏正则项降低特征间冗余. 通过统一框架下的特征权重迭代优化获得最优特征子集.
在 ORL 库、COIL20 库、Isolet1 库上的聚类实验表明, MDFS 算法选取的特征子集相比传统算法具有更高的识别准确
率和归一化互信息, 验证了所提出算法的有效性.
关键词: 特征选择;流形学习;结构化稀疏;聚类
中图分类号: TP391 文献标志码: A
Feature selection based on manifold discriminant information and its
structured sparse representation
QIAN Bin, TANG Zhen-min, LI Xue, XU Wei
(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,China.
Correspondent:QIAN Bin,E-mail:311062198@njust.edu.cn)
Abstract: The traditional heuristic feature selection methods usually neglect the correlations between features, and thus
lead to suboptimal feature subset. Therefore, a method of manifold discriminant feature selection(MDFS) is proposed. The
method captures the manifold structure of the dataset by incorporating both neighbor and label information, and then the
objective function can be formulated by minimizing the difference between intra and inter scatters. Besides, the structured
sparse regularization term is further added to reduce the redundant information. Finally, a new iterative algorithm is presented
for optimization. The experimental results on three popular datasets, i.e., ORL, COIL20, and Isolet1 dataset, show that,
compared with existing related methods, the proposed method achieves better clustering performances in terms of accuracy
and normalized mutual information. Thus the effectiveness of the proposed method can be verified.
Keywords: feature selection;manifold learning;structured sparsity;cluster
0 引引引 言言言
近年来, 随着大数据技术的日益发展, 数据降维
方法在计算机视觉、模式识别、生物基因技术等方面
起着越来越重要的作用
[1]
. 数据降维方法可以分为两
类: 特征抽取和特征选择. 特征抽取通过某些准则寻
找高维数据的低维子空间进行投影降维, 而特征选择
在不改变原始特征数据的基础上对特征进行筛选, 去
除冗余数据, 保留对于分类或识别具有重要意义的特
征. 因为特征选择在数据降维的同时没有改变特征的
物理意义, 所以基于特征选择的降维方法已被广泛应
用于各个领域
[2-5]
.
根据特征选择方法是否依赖于最终采用的学习
分类器, 可以分为两种类型: 封装式 (Wrapper) 和过滤
式 (Filter)
[6]
. Guyon 等
[7]
将支持向量机分类器应用于
基因特征选择; Michalak 等
[8]
提出了一种基于相关性
的封装式特征选择方法, 这类封装式的特征选择算法
需要依赖特定的分类器, 其计算复杂, 算法适应性较
差. 基于方差 (VAR) 的特征评判准则由于其计算简单
受到广泛使用, 但是没有考虑样本之间的依赖关系,
因而所选取的特征不具有良好的表示能力. He 等
[9]
提出了拉普拉斯排序 (LS) 算法, 该算法通过构建样本
拉普拉斯近邻图, 以特征局部保持能力为准则对样
收稿日期: 2015-05-24;修回日期: 2015-12-12.
基金项目: 国家自然科学基金项目(61305134, 90820306);江苏省社会安全图像与视频理解重点实验室基金项目
(30920130122006).
作者简介: 钱彬(1989−), 男, 博士生, 从事计算机视觉、模式识别的研究;唐振民(1961−), 男, 教授, 博士生导师, 从事
智能机器人与目标识别、图像处理与模式识别等研究.