没有合适的资源?快使用搜索试试~ 我知道了~
基于Boosting的代价敏感软件缺陷预测方法_杨杰1
需积分: 0 1 下载量 55 浏览量
2022-08-03
17:44:59
上传
评论
收藏 682KB PDF 举报
温馨提示
试读
6页
摘要Boosting重抽样是常用的扩充小样本数据集的方法,首先针对抽样过程中存在的维数灾难现象,提出随机属性子集选择方法以进行降维处理;进而针对软件缺陷预测对于
资源详情
资源评论
资源推荐
第
44
卷
第
8
期
2017
年
8
月
计 算 机 科 学
COMPUTER
SCIENCE
Vol.44No.8
Au
g
.2017
到稿日期
:
2016
-
07
-
27
返修日期
:
2016
-
10
-
21
本文受十三五重点基础科研项目
(
JCKY2016206B001
),
江苏省六大人才高峰项目
(
XXRJ
-
004
),
软件新技术与产业化协同创新中心资助
。
杨
杰
(
1990-
),
男
,
硕士生
,
主要研究方向为系统建模与仿真
,
E
-
mail
:
604957608
@
qq
.com
;
燕雪峰
(
1975-
),
男
,
博士
,
教授
,
主要研究方向为
软件工程方法论
、
系统建模与仿真等
;
张德平
(
1973-
),
男
,
博士
,
讲师
,
主要研究方向为软件测试与软件可靠性建模
。
基于
Boostin
g
的代价敏感软件缺陷预测方法
杨
杰
燕雪峰
张德平
(
南京航空航天大学计算机科学与技术学院
南京
211106
)
摘
要
Boostin
g
重抽样是常用的扩充小样本数据集的方法
,
首先针对抽样过程中存在的维数灾难现象
,
提出随机属
性子集选择方法以进行降维处理
;
进而针对软件缺陷预测对于漏报与误报的惩罚因子不同的特点
,
在属性选择过程中
添加代价敏感算法
。
以多个基本
k
-
NN
预测器为弱学习器
,
以代价最小为属性删除原则
,
得到当前抽样集的
k
值与属
性子集的预测器集合
,
采用代价敏感的权重更新机制对抽样过程中的不同数据实例赋予相应权值
,
由所有预测器集合
构成自适应的集成
k
-
NN
强学习器并建立软件缺陷预测模型
。
基于
NASA
数据集的实验结果表明
,
在小样本情况下
,
基于
Boostin
g
的代价敏感软件缺陷预测方法预测的漏报率有较大程度降低
,
误报率有一定程度增加
,
整体性能优于
原来的
Boostin
g
集成预测方法
。
关键词
软件缺陷预测
,
Boostin
g
,
代价敏感
,
随机属性选择
,
集成
k
-
NN
中图法分类号
TP311
文献标识码
A
DOI
10.11896
/
j
.issn.1002
-
137X.2017.08.031
Cost
-
sensitive
Software
Defect
Prediction
Method
Based
on
Boostin
g
YANG
Jie
YAN
Xue
-
fen
g
ZHANG
De
-
p
in
g
(
Colle
g
e
of
Com
p
uter
Science
and
Technolo
gy
,
Nan
j
in
g
Universit
y
of
Aeronautics
and
Astronautics
,
Nan
j
in
g
211106
,
China
)
Abstract
Boostin
g
resam
p
lin
g
is
a
common
method
to
ex
p
and
data
sets
for
small
sam
p
les.Firstl
y
,
aimin
g
at
dimension
disaster
p
henomenon
durin
g
resam
p
lin
g
p
rocess
,
a
randoml
y
feature
selection
method
is
used
to
reduce
the
dimensions.
In
addition
,
considerin
g
the
characteristic
that
software
defect
p
rediction
’
s
p
enalties
for
missin
g
of
true
p
ositives
and
the
wron
g
l
y
re
p
orted
of
ne
g
atives
are
different
,
cost
-
sensitive
al
g
orithm
is
added
in
feature
selection
p
rocess.On
the
basis
of
multi
-
normal
k
-
NN
weak
learnin
g
,
takin
g
minimum
costs
as
the
p
rinci
p
le
,
p
reditor
which
consists
of
k
value
and
attri
-
butes
subset
of
the
current
sam
p
lin
g
set
is
g
et
,
cost
-
sensitive
theor
y
is
im
p
orted
to
u
p
date
wei
g
ht
vector
durin
g
Boostin
g
resam
p
lin
g
p
rocess
,
and
different
instances
are
g
iven
corres
p
ondin
g
wei
g
hts.An
ada
p
tive
ensemble
k
-
NN
learnin
g
is
constructed
usin
g
all
the
p
redictors
,
and
a
software
defect
p
rediction
model
is
established.The
results
usin
g
NASA
’
s
data
sets
show
that
under
the
condition
of
small
sam
p
les
,
with
this
model
,
missin
g
of
true
p
ositive
rate
reduces
lar
g
el
y
and
the
wron
g
l
y
re
p
orted
of
ne
g
ative
rate
increases
to
some
extent.On
the
whole
,
com
p
ared
with
the
ori
g
en
boostin
g
-
based
learnin
g
,
the
method
of
cost
-
sensitive
software
defect
p
rediction
based
on
boostin
g
g
reatl
y
im
p
roves
the
p
rediction
effect.
Ke
y
words
Software
defect
p
rediction
,
Boostin
g
,
Cost
-
sensitive
,
Randoml
y
feature
selection
,
Ensemble
k
-
NN
1
引言
随着软件技术的发展与软件产业的应用
,
软件的 可信性
受到普遍关注
,
软件缺陷预测技术是可信性研究领域中的热
点问题之一
[
1
]
。
合理预测软件缺陷可以有效地帮助测试者快
速定位并弥补软件缺陷
,
从而达到显著减少软件开发成本和
提高软件可信性的效果
。
一般而言
,
软件缺陷预测技术可分为静态和动态两种类
型
[
2
]
,
静态预测主要是指根据缺陷相关的度量数据对缺陷的
数量或分布进行预测
;
而动态预测则是基于缺陷或者失效产
生的时间对系统缺陷随时间的分布进行预测
[
3
]
。
机器学习是
静态预测技术领域中常用的缺陷预测方法
,
经典的学习方法
包括朴素 贝叶 斯
(
Naive
Ba
y
esian
,
NB
)
[
4
]
、
支持向 量机
(
Su
p
-
p
ort
Vector
Machine
,
SVM
)
[
5
]
、
决策树
、
BP
神经网络
、
随机森
林等
;
近年来
,
随着软件工程在诸多领域中的应用
,
建立在 上
述学习算法之上的跨项目软件缺陷预测成为了研究热点
,
基
于迁移学习的软件缺陷预测方法
[
6
]
也因此被提出
。
由于大部
分经典学习算法对于被测数据有严格的限制
,
将其应用于软
件缺陷预测取得的效果并不理想
,
因此国内外学者对其进行
了一系列的改进
,
如文献
[
7
]
利用条件概率查找出属性间的依
王者丶君临天下
- 粉丝: 18
- 资源: 265
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0