没有合适的资源?快使用搜索试试~ 我知道了~
基于ODR和BSMOTE 结合的不均衡数据SVM分类算法
1 下载量 172 浏览量
2021-01-14
20:46:55
上传
评论 1
收藏 241KB PDF 举报
温馨提示
试读
7页
<p>针对传统的支持向量机(SVM) 算法在数据不均衡的情况下分类效果不理想的缺陷, 为了提高SVM算法在<br> 不均衡数据集下的分类性能, 提出一种新型的逐级优化递减欠采样算法. 该算法去除样本中大量重叠的冗余和噪声<br> 样本, 使得在减少数据的同时保留更多的有用信息, 并且与边界人工少数类过采样算法相结合实现训练样本数据集<br> 的均衡. 实验表明, 该算法不但能有效提高SVM算法在不均衡数据中少数类的分类性能, 而且总体分类性能也有所<br> 提高.a</p>
资源推荐
资源详情
资源评论
第 26 卷 第 10 期
Vol. 26 No. 10
控 制 与 决 策
Control and Decision
2011 年 10 月
Oct. 2011
基于 ODR 和 BSMOTE 结合的不均衡数据 SVM 分类算法
文章编号: 1001-0920 (2011) 10-1535-07
陶新民, 童智靖, 刘 玉, 付丹丹
(哈尔滨工程大学 信息与通信工程学院,哈尔滨 150001)
摘 要: 针对传统的支持向量机 (SVM) 算法在数据不均衡的情况下分类效果不理想的缺陷, 为了提高 SVM 算法在
不均衡数据集下的分类性能, 提出一种新型的逐级优化递减欠采样算法. 该算法去除样本中大量重叠的冗余和噪声
样本, 使得在减少数据的同时保留更多的有用信息, 并且与边界人工少数类过采样算法相结合实现训练样本数据集
的均衡. 实验表明, 该算法不但能有效提高 SVM 算法在不均衡数据中少数类的分类性能, 而且总体分类性能也有所
提高.
关键词: 不均衡数据;支持向量机算法;边界人工少数类过采样算法;逐级优化递减
中图分类号: TP18 文献标识码: A
SVM classifier for unbalanced data based on combination of ODR and
BSMOTE
TAO Xin-min, TONG Zhi-jing, LIU Yu, FU Dan-dan
(College of Information and Communication Engineering,Harbin Engineering University,Harbin 150001,China.
Abstract: The classification result of classical support vector machine(SVM) algorithm in the case of unbalanced data
set is not satisfactory. In order to improve the SVM algorithm’s classification performance under unbalanced data set,
a novel under-sampling algorithm based on optimization of decreasing reduction(ODR) is presented. The algorithm is
applied to under-sample the majority class instances for removal of a large number of overlapping samples of redundant
and noise samples, which consequently makes reservations for the majority class instances with more useful information,
and the ODR under-sampling algorithm is combined with border synthetic minority over-sample technique(BSMOTE) to
achieve a balanced training sample data set. The experimental results show that the proposed method can not only improve
classification performance of SVM in the minority class data, but also increase the overall classification performance.
Key words: unbalanced data;support vector machine;BSMOTE;optimization of decreasing reduction
1 引引引 言言言
支持向量机 (SVM) 是以统计学习理论为基础的
一种新型机器学习方法
[1]
. 它克服了神经网络和传统
分类器过学习、局部极值点和维数灾难等诸多缺点,
具备较强的泛化能力, 目前已成为机器学习领域的一
个新的研究热点.
由于 SVM 方法属于有监督分类算法, 需要数目
相同的不同类别样本进行训练才能获得较好的泛化
能力. 但是, 现实生活中的很多数据样本均是不均衡
的, 例如商业欺诈
[2]
、疾病诊断
[3]
、文本分类
[4]
等数据
集. 针对不均衡数据集进行分类时, 各个类别的样本
数目存在较大的差异, 导致不同类别的样本对于训练
算法提供的信息不对称, 使得利用 SVM 算法处理不
均衡数据时
[5]
, 训练后得到的分类面会向少数类样本
偏移, 从而使 SVM 过度拟合多数类样本点而低估了
少数类样本点, 导致算法错分率增大. 因此, 如何实现
SVM 算法在不均衡数据下的正确分类便成为众多学
者关注的重点.
目前, 提高不均衡数据下 SVM 算法性能的研究
主要集中在算法层面和数据层面. 算法层面的方法是
指对分类算法本身进行操作, 即修改已有的分类算法
或者提出新的算法. 对于已有的算法, 通过调节不同
收稿日期: 2010-05-27;修回日期: 2010-07-26.
基金项目: 国家自然科学基金项目(61074076);中国博士后科学基金项目(20090450119);中国博士点新教师基金项目
(20092304120017);黑龙江省博士后基金项目(LBH-Z08227).
作者简介: 陶新民(1973−), 男, 副教授, 从事智能信号处理、智能计算等研究;童智靖(1986−), 男, 硕士生, 从事模式识
别的研究.
资源评论
weixin_38631599
- 粉丝: 9
- 资源: 944
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功