没有合适的资源?快使用搜索试试~ 我知道了~
<p>当数据含有噪声或标签错误时, 传统的属性选择方法(如粗糙集) 无法得到正确结果, 为此提出一种针对含<br> 噪、标签错误数据的属性选择方法. 首先用最大边界投影方法获得数据的最佳投影; 然后通过对投影矩阵进行??2,1 范<br> 数正则化操作, 进而获得行稀疏的投影矩阵, 据此获得对关键属性的挖掘; 最后给出方法的收敛性和针对标签错误数<br> 据的有效性证明. 实验结果表明, 所提出的算法克服了噪声和标签错误的影响, 较好地实现了针对含噪、标签错误数<br> 据的属性选择.</p>
资源推荐
资源详情
资源评论
第 28 卷 第 9 期
Vol. 28 No. 9
控 制 与 决 策
Control and Decision
2013 年 9 月
Sep. 2013
一种基于最大边界投影和 𝑙
2,1
范数正则化的属性选择算法
文章编号: 1001-0920 (2013) 09-1485-06
夏建明, 杨俊安
(电子工程学院 a. 通信对抗系,b. 电子制约技术安徽省重点实验室,合肥 230037)
摘 要: 当数据含有噪声或标签错误时, 传统的属性选择方法 (如粗糙集) 无法得到正确结果, 为此提出一种针对含
噪、标签错误数据的属性选择方法. 首先用最大边界投影方法获得数据的最佳投影; 然后通过对投影矩阵进行 𝑙
2,1
范
数正则化操作, 进而获得行稀疏的投影矩阵, 据此获得对关键属性的挖掘; 最后给出方法的收敛性和针对标签错误数
据的有效性证明. 实验结果表明, 所提出的算法克服了噪声和标签错误的影响, 较好地实现了针对含噪、标签错误数
据的属性选择.
关键词: 属性选择;最大边界投影;𝑙
2,1
范数;噪声数据;标签错误
中图分类号: TN911.5 文献标志码: A
A novel attribute reduction algorithm based on maximum margin
projection and 𝑙
2,1
norm regularization
XIA Jian-ming, YANG Jun-an
(a. Department of Communication Countermeasures,b. Key Laboratory of Electronic Restriction of Anhui Province,
Electronic Engineering Institute,Hefei 230037,China.Correspondent:XIA Jian-ming,E-mail:jianmingeei@
163.com)
Abstract: The traditional attribute reduction algorithms such as rough set will fail to get accurate results when deal with
the data sets which have noise or labeling errors. Therefore, this paper proposes an attribute reduction algorithm which can
analyze this kind of data effectively. Firstly, the best projection of the data sets is obtained by using the maximum margin
projection(MMP) method. Then 𝑙
2,1
-norm on the projection matrix is used to achieve row-sparsity, which leads to selecting
relevant features. Finally, the proof of the algorithm’s convergence and validity to the data sets with errors is given. The
result of experiments on the UCI data sets show the effectiveness of the proposed algorithm.
Key words: attribute reduction;maximum margin projection;𝑙
2,1
norm;noise data;labeling error
0 引引引 言言言
随着信息时代的到来, 海量复杂的数据在各个领
域中不断涌现, 人们希望自动地从数据中获取其潜在
的知识模型. 在知识挖掘过程中, 首先需要对大量的
属性进行选择, 通过属性选择, 去除冗余属性, 获得关
键属性, 最终获得对规则的挖掘. 大批学者对这一领
域进行研究, 取得了丰硕的成果, 但这些挖掘工具的
前提是数据是正确的, 当数据中各属性中含有噪声或
数据标签发生错误时, 其选择结果将发生错误. 其中
经典方法如粗糙集, 由于其无需任何先验知识, 能从
大量含糊和不确定的数据中发现有用信息, 在属性选
择领域得到了广泛的应用. 但是由于其对不可分辨性
的严格规定, 无法应对噪声和标签错误数据. 之后学
者们又从 3 个方面对该问题进行研究, 一是从提高算
法的鲁棒性着手, 如徐怡等
[1]
引入正确分类率 𝛽, 提
出了可变精度粗糙集模型, 通过允许一定的错误分类
率存在来完善近似空间; 但是在应用过程中参数 𝛽 往
往仅能通过领域专家按照知识和经验指定, 从而失去
了最初粗糙集不需要任何先验知识、仅从数据本身出
发的初衷, 且针对不同数据需要确定不同的错误分类
率, 一旦错误分类率给定后, 在数据本身变化的情况
下将获得错误的结果, 这将制约属性选择的应用. 变
精度粗糙集的一系列改进方法也尚未给出正确分类
率的自适应求解方法
[2]
. 二是针对数据清洗、过滤进
行研究, 如建立多个分类器, 使得分类器预测错误最
多的样本作为发生错误的数据过滤掉
[3]
. 三是在预先
收稿日期: 2012-05-17;修回日期: 2012-08-30.
基金项目: 安徽省自然科学基金项目(1208085MF94).
作者简介: 夏建明(1982−), 男, 博士生, 从事数据挖掘、机器学习的研究;杨俊安(1965−), 男, 教授, 博士生导师, 从事
信号处理、智能计算等研究.
资源评论
weixin_38704701
- 粉丝: 8
- 资源: 981
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功