收稿日期
: 2012-12-07;
修回日期
: 2013-02-24
基金项目
:
国家教育部留学回国 人员科研启动基金资助项目
(
第
44
批
) ;
兰州大学中央
高校基本科研业务费专项资金资助项目
( lzujbky-2012-15,lzujbky-2013-178)
作者简介
:
吴晓萍
( 1987-) ,
女
,
陕西渭南人
,
硕士研究生
,
主要研究方向为金融软件系统建模
( 353054349@ qq. com) ;
赵学靖
( 1972-) ,
男
,
甘肃
临洮人
,
副教授
,
博士
,
主要研究方向为高维 数据统计分析
;
乔辉
( 1988-) ,
男
,
陕西渭南人
,
硕士研究生
,
主要研究方向为软件可靠性预测
;
刘东梅
( 1986-) ,
女
,
甘肃靖远人
,
硕士研究生
,
主要研究方向为生物 统计
;
王志
( 1987-) ,
男
,
湖南长沙人
,
硕士研究生
,
主要研究方向为经济统计
.
基于
LASSO-SVM
的软件缺陷预测模型研究
*
吴晓萍
1
,
赵学靖
1
,
乔 辉
2
,
刘东梅
1
,
王 志
1
( 1.
兰州大学 应用数学与统计学院
,
兰州
730000; 2.
中国人民解放军信息 工程大学 密码工程学院
,
郑州
450004)
摘 要
:
针对当前大多数软件 缺陷预测模型预测准确率较差的问题
,
提出了结合最小绝对 值压缩和选择方法与
支持向量机算法的软 件缺陷预测模型
。
首先利用最小绝对值压缩与选择方法的特征选择能力降低了原始数据
集的维度
,
去除了与软件缺陷预 测不相关的数据集
;
然后利用交叉验证算法的参数寻优能力找到支持向量机的
最优相关参数
;
最后运用支持向量机 的非线性运算能力完成了软件缺陷预测
。
仿真实验结果表明
,
所提出的缺
陷预测模型与传统的 缺陷预测模型相比具有较高的预测准确率
,
且预测速度更快
。
关键词
:
软件缺陷预测
;
最小绝对值压缩与选 择方法
;
特征选择
;
支持向量机
;
交叉验证
中图分类号
: TP311. 5
文献标志码
: A
文章编号
: 1001-3695( 2013) 09-2748-04
doi: 10. 3969 / j. issn. 1001-3695. 2013. 09. 047
Research of software defe ct prediction model based on LASSO-SVM
WU Xiao-ping
1
,ZHAO Xue-jing
1
,QIAO Hui
2
,LIU Dong-mei
1
,WANG Zhi
1
( 1. School of Statistics & Mathematics,Lanzhou University,Lanzhou 730000,China; 2. Institute of Cryptography Engineering,PLA Information
Engineering University,Zhengzhou 450004,China)
Abstract: The prediction ac curacy of most current software defect prediction models is not very high. To solve the proble m,
this pape r investigated a software defect prediction model with the least absolute shrinkage and select operator( LASSO) and the
support vector machine ( SVM) . At first,it reduc e d the dimension of the original data sets and extracted the data which was
irrelevant with software defect prediction by taking advantag e of the feature selection capability of LASSO. Then it found the
correlated optimal weights of the SVM by making use of the parameter preference capability of cross validation. At last
,it fi-
nished software defect prediction by utilizing the non-linear computing power of SVM. The simulation experiment indicated that
proposed method owe a hi g he r prediction prec i sion than the traditional ones and predicted faster.
Key words: software defect prediction; least absolute shrinkage and select operator ( LASSO) ; feature selection; support
vector machine ( SV M) ; cross validation
! 引言
目前统计方法
、
机器学习和混合统计与机器学习三种方法
已经被广泛地应用于软件缺陷预测领域
。
在这三种方法中
,
混
合统计与机器学习方法已经被证明可以更好地实现软件缺陷
预测
[1]
。
在软件缺陷预测领域
,
由于软件模块的复杂性
、
软件复杂
性度量和易出错模块类别的对应关系很难确定
,
研究人员提出
了采用大量的原始复杂性度量属性数据来进行软件缺陷预测
。
然而不加选择地引入所有的复杂性度量属性来进行缺陷预测
,
往往不能取得良好的效果
[2]
。
这是因为过多地引入复杂性度
量属性会导致
“
维数灾难
”
和
“
组合爆炸
”
[3]
,
使得计算量空前
增大
,
估计和预测精度也会下降
;
此外
,
在一些情况下
,
获得某
些软件复杂性度量属性数据代价昂贵
,
如果这些数据本身对预
测结果的影响微乎其微
,
那么势必会造成缺陷数据的收集和模
型应用的费用不必要地增大
。
针对上述问题
,
混合统计与机器学习方法的核心是先利用
统计方法的思想对要进行缺陷预测的数据集进行特征选
择
[4,5]
处理
,
达到降低数据集维数的目的
;
之后用机器学习方
法对处理后的数据集进行缺陷预测
,
获得所需要的预测精度
。
本文基于上述思想
,
提出了一种基于
LASSO-SVM
的软件
缺陷预测方法
。
其主要工作如下
:
分析了
LASSO
方法的核心
思想
,
以及如何使用它的特征选择能力来得到精简的复杂性度
量属性子集
;
分析了
SVM
机器学习算法的核心思想
,
并且使用
交叉验证算法对
SVM
的相关参数进行优化
,
获得
SVM
优化模
型
;
将使用
LASSO
方法得到的属性精简子集输入到基于
SVM
机器学习算法的软件缺陷预测模型中
,
并与其他传统软件缺陷
预测方法进行对比
,
验证了该方法的有效性和预测准确率
。
" 相关研究
"
.
" ,&%%2 方法
Tibshirani
于
1996
年提出了一种有偏估计的方法
,
被用来
处理高维数据的特征选择问题
,
该方法称为最小绝对值压缩与
选择方法
( LASSO)
[6]
。LASSO
可以通过惩罚函数将影响较小
的观察变量的回归系数收缩到
0,
这样做虽然牺牲了一定的估
第
30
卷第
9
期
2013
年
9
月
计 算 机 应 用 研 究
Application Research of Computers
Vol. 30 No. 9
Sep. 2013
评论0