没有合适的资源?快使用搜索试试~ 我知道了~
论文研究-一种基于ReliefF和PLS的特征选择算法 .pdf
需积分: 35 6 下载量 11 浏览量
2019-08-24
14:16:39
上传
评论
收藏 632KB PDF 举报
温馨提示
试读
6页
一种基于ReliefF和PLS的特征选择算法,邹常盼,亓峰,针对PLS算法容易受冗余特征干扰而导致分类精度下降的问题,本文给出了一种结合ReliefF和PLS的特征选择算法。首先,该算法采用ReliefF算�
资源推荐
资源详情
资源评论
http://www.paper.edu.cn
- 1 -
中国科技论文在线
一种基于 ReliefF 和 PLS 的特征选择算法
邹常盼,亓峰
**
作者简介:邹常盼(1993-),男,硕士,网络管理
通信联系人:亓峰(1971-),男,教授,智能电网信息通信. E-mail: qifeng@bupt.edu.cn
(北京邮电大学网络与交换技术国家重点实验室,北京 100876)
5
摘要:针对 PLS 算法容易受冗余特征干扰而导致分类精度下降的问题,本文给出了一种结
合 ReliefF 和 PLS 的特征选择算法。首先,该算法采用 ReliefF 算法剔除了冗余特征;随后,
利用 PLS 算法提取出最具有代表性的主成分,构成了有效的特征子集,实现了特征降维。
最后,利用 UCI 数据集进行分类实验,结果表明该算法的分类精度高于 PLS 算法,同时分
类时间低于 PLS 算法,从而验证该算法的可行性和有效性,为信息特征压缩提供了一种新10
的研究方法。
关键词:模式识别;特征选择;偏最小二乘法;支持向量机
中图分类号:TP391.4
A feature selection algorithm based on ReliefF and PLS 15
Zou Changpan, Qi Feng
(State Key Laboratory Of Networking And Switching Technology, Beijing University of Posts
and Telecommunications, Beijing 100876)
Abstract: The PLS algorithm is easily affected by the redundant features, then it will lead to a fall
in classification accuracy, so this paper presents a feature selection algorithm combining ReliefF 20
and PLS. First, this algorithm cuts out the redundant features by ReliefF; Second, take out the
most representative features which constitute the effective feature sets by PLS, thus the
dimensions of the features are decreased. Third, experiments on the UCI datasets show that the
classification accuracy of this algorithm is higher than PLS algorithm, and at the same time, the
classification time is slightly less than PLS algorithm. So this algorithm is feasible and effective, 25
and it provides a new research approach for information feature compression.
Key words: pattern recognition; feature selection; partial least squares; support vector machine
0 引言
特征选择是指在特定评估标准下,从样本数据的全部特征中选择出一个彼此之间相关联30
程度较小的特征子集的过程,它能够使得分类效果更好。在实际应用中,数据的特征一般都
比较多,其中可能存在冗余的特征,也可能存在互相关的特征,这样将导致分类算法分析特
征、训练模型花费较长时间,容易引发维数灾难,还会降低分类精度
[1]
。通过特征选择,则
可以剔除这些无用的特征,从而提高分类准确率和减少分类时间
[2]
。随着数据特征空间的迅
速增大,特征选择算法已经变得越来越重要,目前通过国内外许多学者的深入研究,已有许35
多经典的特征选择算法
[3-6]
。
偏最小二乘算法(Partial Least Squares,PLS)便是其中之一,该算法从自变量中提取
出对自变量和因变量都具有最佳解释能力的主成分,并认为模型输出受少数几个主成分影
响。这样,通过提取符合要求的主成分,就能消除互相关的特征对模型的影响。但是由于一
些数据样本的自变量中含有大量与因变量无关的特征,即冗余特征,它们会影响 PLS 的有40
效性,从而使得采用该算法的分类器准确率下降
[7]
。
针对此问题,本文采用 Filter 方法去除冗余特征,该算法基于一个特征子集对数据的内
在特性进行计算分析,例如样本距离、信息量、相关性、一致性等统计信息,以此来评估特
资源评论
weixin_39840515
- 粉丝: 446
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功