【免费】基于Boosting的代价敏感软件缺陷预测方法

需积分: 0 55 浏览量 2022-08-03 17:44:59 上传评论收藏 682KB PDF 举报

资源详情

资源评论

资源推荐

第

４４

卷

第

８

期

２０１７

年

８

月

计算机科学

ＣＯＭＰＵＴＥＲ

ＳＣＩＥＮＣＥ

Ｖｏｌ．４４Ｎｏ．８

Ａｕ

ｇ

．２０１７

到稿日期

：

２０１６

－

０７

－

２７

返修日期

：

２０１６

－

１０

－

２１

本文受十三五重点基础科研项目

（

ＪＣＫＹ２０１６２０６Ｂ００１

），

江苏省六大人才高峰项目

（

ＸＸＲＪ

－

００４

），

软件新技术与产业化协同创新中心资助

。

杨

杰

（

１９９０－

），

男

，

硕士生

，

主要研究方向为系统建模与仿真

，

Ｅ

－

ｍａｉｌ

：

６０４９５７６０８

＠

ｑｑ

．ｃｏｍ

；

燕雪峰

（

１９７５－

），

男

，

博士

，

教授

，

主要研究方向为

软件工程方法论

、

系统建模与仿真等

；

张德平

（

１９７３－

），

男

，

博士

，

讲师

，

主要研究方向为软件测试与软件可靠性建模

。

基于

Ｂｏｏｓｔｉｎ

ｇ

的代价敏感软件缺陷预测方法

杨

杰

燕雪峰

张德平

（

南京航空航天大学计算机科学与技术学院

南京

２１１１０６

）

摘

要

Ｂｏｏｓｔｉｎ

ｇ

重抽样是常用的扩充小样本数据集的方法

，

首先针对抽样过程中存在的维数灾难现象

，

提出随机属

性子集选择方法以进行降维处理

；

进而针对软件缺陷预测对于漏报与误报的惩罚因子不同的特点

，

在属性选择过程中

添加代价敏感算法

。

以多个基本

ｋ

－

ＮＮ

预测器为弱学习器

，

以代价最小为属性删除原则

，

得到当前抽样集的

ｋ

值与属

性子集的预测器集合

，

采用代价敏感的权重更新机制对抽样过程中的不同数据实例赋予相应权值

，

由所有预测器集合

构成自适应的集成

ｋ

－

ＮＮ

强学习器并建立软件缺陷预测模型

。

基于

ＮＡＳＡ

数据集的实验结果表明

，

在小样本情况下

，

基于

Ｂｏｏｓｔｉｎ

ｇ

的代价敏感软件缺陷预测方法预测的漏报率有较大程度降低

，

误报率有一定程度增加

，

整体性能优于

原来的

Ｂｏｏｓｔｉｎ

ｇ

集成预测方法

。

关键词

软件缺陷预测

，

Ｂｏｏｓｔｉｎ

ｇ

，

代价敏感

，

随机属性选择

，

集成

ｋ

－

ＮＮ

中图法分类号

ＴＰ３１１

文献标识码

Ａ

ＤＯＩ

１０．１１８９６

／

ｊ

．ｉｓｓｎ．１００２

－

１３７Ｘ．２０１７．０８．０３１

Ｃｏｓｔ

－

ｓｅｎｓｉｔｉｖｅ

Ｓｏｆｔｗａｒｅ

Ｄｅｆｅｃｔ

Ｐｒｅｄｉｃｔｉｏｎ

Ｍｅｔｈｏｄ

Ｂａｓｅｄ

ｏｎ

Ｂｏｏｓｔｉｎ

ｇ

ＹＡＮＧ

Ｊｉｅ

ＹＡＮ

Ｘｕｅ

－

ｆｅｎ

ｇ

ＺＨＡＮＧ

Ｄｅ

－

ｐ

ｉｎ

ｇ

（

Ｃｏｌｌｅ

ｇ

ｅ

ｏｆ

Ｃｏｍ

ｐ

ｕｔｅｒ

Ｓｃｉｅｎｃｅ

ａｎｄ

Ｔｅｃｈｎｏｌｏ

ｇｙ

，

Ｎａｎ

ｊ

ｉｎ

ｇ

Ｕｎｉｖｅｒｓｉｔ

ｙ

ｏｆ

Ａｅｒｏｎａｕｔｉｃｓ

ａｎｄ

Ａｓｔｒｏｎａｕｔｉｃｓ

，

Ｎａｎ

ｊ

ｉｎ

ｇ

２１１１０６

，

Ｃｈｉｎａ

）

Ａｂｓｔｒａｃｔ

Ｂｏｏｓｔｉｎ

ｇ

ｒｅｓａｍ

ｐ

ｌｉｎ

ｇ

ｉｓ

ａ

ｃｏｍｍｏｎ

ｍｅｔｈｏｄ

ｔｏ

ｅｘ

ｐ

ａｎｄ

ｄａｔａ

ｓｅｔｓ

ｆｏｒ

ｓｍａｌｌ

ｓａｍ

ｐ

ｌｅｓ．Ｆｉｒｓｔｌ

ｙ

，

ａｉｍｉｎ

ｇ

ａｔ

ｄｉｍｅｎｓｉｏｎ

ｄｉｓａｓｔｅｒ

ｐ

ｈｅｎｏｍｅｎｏｎ

ｄｕｒｉｎ

ｇ

ｒｅｓａｍ

ｐ

ｌｉｎ

ｇ

ｐ

ｒｏｃｅｓｓ

，

ａ

ｒａｎｄｏｍｌ

ｙ

ｆｅａｔｕｒｅ

ｓｅｌｅｃｔｉｏｎ

ｍｅｔｈｏｄ

ｉｓ

ｕｓｅｄ

ｔｏ

ｒｅｄｕｃｅ

ｔｈｅ

ｄｉｍｅｎｓｉｏｎｓ．

Ｉｎ

ａｄｄｉｔｉｏｎ

，

ｃｏｎｓｉｄｅｒｉｎ

ｇ

ｔｈｅ

ｃｈａｒａｃｔｅｒｉｓｔｉｃ

ｔｈａｔ

ｓｏｆｔｗａｒｅ

ｄｅｆｅｃｔ

ｐ

ｒｅｄｉｃｔｉｏｎ

’

ｓ

ｐ

ｅｎａｌｔｉｅｓ

ｆｏｒ

ｍｉｓｓｉｎ

ｇ

ｏｆ

ｔｒｕｅ

ｐ

ｏｓｉｔｉｖｅｓ

ａｎｄ

ｔｈｅ

ｗｒｏｎ

ｇ

ｌ

ｙ

ｒｅ

ｐ

ｏｒｔｅｄ

ｏｆ

ｎｅ

ｇ

ａｔｉｖｅｓ

ａｒｅ

ｄｉｆｆｅｒｅｎｔ

，

ｃｏｓｔ

－

ｓｅｎｓｉｔｉｖｅ

ａｌ

ｇ

ｏｒｉｔｈｍ

ｉｓ

ａｄｄｅｄ

ｉｎ

ｆｅａｔｕｒｅ

ｓｅｌｅｃｔｉｏｎ

ｐ

ｒｏｃｅｓｓ．Ｏｎ

ｔｈｅ

ｂａｓｉｓ

ｏｆ

ｍｕｌｔｉ

－

ｎｏｒｍａｌ

ｋ

－

ＮＮ

ｗｅａｋ

ｌｅａｒｎｉｎ

ｇ

，

ｔａｋｉｎ

ｇ

ｍｉｎｉｍｕｍ

ｃｏｓｔｓ

ａｓ

ｔｈｅ

ｐ

ｒｉｎｃｉ

ｐ

ｌｅ

，

ｐ

ｒｅｄｉｔｏｒ

ｗｈｉｃｈ

ｃｏｎｓｉｓｔｓ

ｏｆ

ｋ

ｖａｌｕｅ

ａｎｄ

ａｔｔｒｉ

－

ｂｕｔｅｓ

ｓｕｂｓｅｔ

ｏｆ

ｔｈｅ

ｃｕｒｒｅｎｔ

ｓａｍ

ｐ

ｌｉｎ

ｇ

ｓｅｔ

ｉｓ

ｇ

ｅｔ

，

ｃｏｓｔ

－

ｓｅｎｓｉｔｉｖｅ

ｔｈｅｏｒ

ｙ

ｉｓ

ｉｍ

ｐ

ｏｒｔｅｄ

ｔｏ

ｕ

ｐ

ｄａｔｅ

ｗｅｉ

ｇ

ｈｔ

ｖｅｃｔｏｒ

ｄｕｒｉｎ

ｇ

Ｂｏｏｓｔｉｎ

ｇ

ｒｅｓａｍ

ｐ

ｌｉｎ

ｇ

ｐ

ｒｏｃｅｓｓ

，

ａｎｄ

ｄｉｆｆｅｒｅｎｔ

ｉｎｓｔａｎｃｅｓ

ａｒｅ

ｇ

ｉｖｅｎ

ｃｏｒｒｅｓ

ｐ

ｏｎｄｉｎ

ｇ

ｗｅｉ

ｇ

ｈｔｓ．Ａｎ

ａｄａ

ｐ

ｔｉｖｅ

ｅｎｓｅｍｂｌｅ

ｋ

－

ＮＮ

ｌｅａｒｎｉｎ

ｇ

ｉｓ

ｃｏｎｓｔｒｕｃｔｅｄ

ｕｓｉｎ

ｇ

ａｌｌ

ｔｈｅ

ｐ

ｒｅｄｉｃｔｏｒｓ

，

ａｎｄ

ａ

ｓｏｆｔｗａｒｅ

ｄｅｆｅｃｔ

ｐ

ｒｅｄｉｃｔｉｏｎ

ｍｏｄｅｌ

ｉｓ

ｅｓｔａｂｌｉｓｈｅｄ．Ｔｈｅ

ｒｅｓｕｌｔｓ

ｕｓｉｎ

ｇ

ＮＡＳＡ

’

ｓ

ｄａｔａ

ｓｅｔｓ

ｓｈｏｗ

ｔｈａｔ

ｕｎｄｅｒ

ｔｈｅ

ｃｏｎｄｉｔｉｏｎ

ｏｆ

ｓｍａｌｌ

ｓａｍ

ｐ

ｌｅｓ

，

ｗｉｔｈ

ｔｈｉｓ

ｍｏｄｅｌ

，

ｍｉｓｓｉｎ

ｇ

ｏｆ

ｔｒｕｅ

ｐ

ｏｓｉｔｉｖｅ

ｒａｔｅ

ｒｅｄｕｃｅｓ

ｌａｒ

ｇ

ｅｌ

ｙ

ａｎｄ

ｔｈｅ

ｗｒｏｎ

ｇ

ｌ

ｙ

ｒｅ

ｐ

ｏｒｔｅｄ

ｏｆ

ｎｅ

ｇ

ａｔｉｖｅ

ｒａｔｅ

ｉｎｃｒｅａｓｅｓ

ｔｏ

ｓｏｍｅ

ｅｘｔｅｎｔ．Ｏｎ

ｔｈｅ

ｗｈｏｌｅ

，

ｃｏｍ

ｐ

ａｒｅｄ

ｗｉｔｈ

ｔｈｅ

ｏｒｉ

ｇ

ｅｎ

ｂｏｏｓｔｉｎ

ｇ

－

ｂａｓｅｄ

ｌｅａｒｎｉｎ

ｇ

，

ｔｈｅ

ｍｅｔｈｏｄ

ｏｆ

ｃｏｓｔ

－

ｓｅｎｓｉｔｉｖｅ

ｓｏｆｔｗａｒｅ

ｄｅｆｅｃｔ

ｐ

ｒｅｄｉｃｔｉｏｎ

ｂａｓｅｄ

ｏｎ

ｂｏｏｓｔｉｎ

ｇ

ｒｅａｔｌ

ｙ

ｉｍ

ｐ

ｒｏｖｅｓ

ｔｈｅ

ｐ

ｒｅｄｉｃｔｉｏｎ

ｅｆｆｅｃｔ．

Ｋｅ

ｙ

ｗｏｒｄｓ

Ｓｏｆｔｗａｒｅ

ｄｅｆｅｃｔ

ｐ

ｒｅｄｉｃｔｉｏｎ

，

Ｂｏｏｓｔｉｎ

ｇ

，

Ｃｏｓｔ

－

ｓｅｎｓｉｔｉｖｅ

，

Ｒａｎｄｏｍｌ

ｙ

ｆｅａｔｕｒｅ

ｓｅｌｅｃｔｉｏｎ

，

Ｅｎｓｅｍｂｌｅ

ｋ

－

ＮＮ

１

引言

随着软件技术的发展与软件产业的应用

，

软件的可信性

受到普遍关注

，

软件缺陷预测技术是可信性研究领域中的热

点问题之一

［

１

］

。

合理预测软件缺陷可以有效地帮助测试者快

速定位并弥补软件缺陷

，

从而达到显著减少软件开发成本和

提高软件可信性的效果

。

一般而言

，

软件缺陷预测技术可分为静态和动态两种类

型

［

２

］

，

静态预测主要是指根据缺陷相关的度量数据对缺陷的

数量或分布进行预测

；

而动态预测则是基于缺陷或者失效产

生的时间对系统缺陷随时间的分布进行预测

［

３

］

。

机器学习是

静态预测技术领域中常用的缺陷预测方法

，

经典的学习方法

包括朴素贝叶斯

（

Ｎａｉｖｅ

Ｂａ

ｙ

ｅｓｉａｎ

，

ＮＢ

）

［

４

］

、

支持向量机

（

Ｓｕ

ｐ

－

ｐ

ｏｒｔ

Ｖｅｃｔｏｒ

Ｍａｃｈｉｎｅ

，

ＳＶＭ

）

［

５

］

、

决策树

、

ＢＰ

神经网络

、

随机森

林等

；

近年来

，

随着软件工程在诸多领域中的应用

，

建立在上

述学习算法之上的跨项目软件缺陷预测成为了研究热点

，

基

于迁移学习的软件缺陷预测方法

［

６

］

也因此被提出

。

由于大部

分经典学习算法对于被测数据有严格的限制

，

将其应用于软

件缺陷预测取得的效果并不理想

，

因此国内外学者对其进行

了一系列的改进

，

如文献

［

７

］

利用条件概率查找出属性间的依

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余5页未读，立即下载

评论收藏

内容反馈

王者丶君临天下

粉丝: 18
资源: 265

基于Boosting的代价敏感软件缺陷预测方法_杨杰1

评论0

最新资源

基于Boosting的代价敏感软件缺陷预测方法_杨杰1

评论0

基于Boosting的集成k_NN软件缺陷预测方法_何亮1

ImVoteNet_Boosting_3D_Object_Detection_in_Point_Cloud.pdf

boosting算法描述.zip_7J4_boosting MATLAB_boosting算法_matlab_matlab b

OCD--code.zip_boosting BP_ocd matlab_变压器_神经网络集成_集成学习matlab

基于Boosting算法的人脸识别方法研究

机器学习算法的公式推导以及numpy实现

基于Boosting-PLS回归的页岩总含气量预测方法

论文研究-基于Boosting框架的非稀疏多核学习方法.pdf

电信设备-一种基于Boosting分类算法的信息检索方法.zip

一种改进的代价敏感型链路预测算法

一种基于Gradient Boosting的公交车运行时长预测方法.docx

基于Gradient Boosting的台风损失预测及在指数保险定价上的应用研究

Boosting方法的理论研究_高尉_高尉南京大学_机器学习_drinksgo_Boosting方法的理论研究_高尉_学习理论_

基于Boosting学习的图片自动语义标注

论文研究-基于Boosting学习的靶子自动检测算法研究.pdf

基于Boosting RBF神经网络的人脸年龄估计.pdf

基于Boosting算法的股票量化多因子选股研究_曹维凡.caj

Boosting方法的理论研究

xinyi2.rar_AdaBoost.M1_Boosting_adaboost matlab_boosting MATLAB

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

软件工程导论(第六版)课后习题答案1

最新资源