收稿日期
: 2015-11-17;
修回日期
: 2016-01-11。
基金项目
:
国家自然科学基金资助项目
( 61472082) ;
福建省自然科学基金资助项目
( 2014J01220) 。
作者简介
:
黄伟
( 1991—) ,
男
,
福建闽侯人
,
硕士研究生
,
主要研究方向
:
文本挖掘
、
大数据挖掘
;
林劼
( 1972—) ,
男
,
福建三明人
,
副教授
,
博士
,
主要研究方向
:
数据挖掘
;
江育娥
( 1970—) ,
女
,
福建古田人
,
教授
,
博士
,
主要研究方向
:
数据挖掘
。
文章编号
: 1001-9081( 2016) 05-1212-04 DOI: 10. 11772 /j. issn. 1001-9081. 2016. 05 . 1212
云环境下软件错误报告自动分类算法改进
黄 伟
,
林 劼
,
江育娥
*
(
福建师范大学 软件学院
,
福州
350108)
( *
通信作者电子邮箱
hwssg@ 126. com)
摘 要
:
用户提交的软件错误 报告随意性大
、
主观性强且内容少导致自动分类正确率不高
,
需要花费大量人工干
预时间
。
随着互联网的快速发 展用 户提交的错误报告数量也不断增加
,
如何在海量数据下提高其自动分类的精确度
越来越受到关注
。
通过改进词频
-
逆文档频率
( TF-IDF) ,
考虑到词条在类间和类内出现情况对文本分类的影响
,
提出
一种基于软件错误报告数据集的改进多项式朴素贝叶斯算法
,
同时在
Hadoop
平台下使用
MapReduce
计算模型实现
该算法的分布式版本
。
实验结果表明
,
改进的多项式朴素贝叶斯算法将
F1
值提高到
71% ,
比原算法提高了
27
个百
分点
,
同时在海量数据下可 以通过拓展节点的方式缩短运行时间
,
有较好的执行效率
。
关键词
:
多项式朴素贝叶斯
;
错误报告
;
文本自动分类
;
词频
-
逆文档频率
;
云计算
中图分类号
: TP311
文献标志码
: A
Improved automatic classification algorithm of software bug report in cloud environment
HUANG Wei, LIN Jie, JIANG Yu e
*
( Faculty of Software, Fujian Normal University, Fuzhou Fujian 350108, China)
Abstract: User-submitted bug reports are arbitrary and subjective. The accuracy of automatic classification of bug reports
is not ideal. Hence it requires many human labors to intervention. With the bug reports database growing bigger and bigger,
the problem of improving the accuracy of automatic classification of these reports is becoming urgent. A TF-IDF ( Term
Frequency-Inverse Document Freqency) based Naive Bayes ( NB) algorithm was proposed. It not only considered the
relationship of a term in different classes but also the relationship of a term inside a class. It was also implemented in
distributed parallel environment of MapReduce model in Hadoop platform. The experimental results show that the proposed
Naive Bayes algorithm improves the performance of
F1 measument to 71% , which is 27 percentage poin
ts higher than the state-
of-the-art method. And it is able to deal with massive amounts of data in distributed way by addding computational node to
offer shorter running time and has better effective performance.
Key words: Naive Bayes of polynomials; bug report; text automatic classification; Term Frequency-Inverse Document
Frequency ( TF-IDF) ; cloud computing
0
引言
随着大数据时代的到来
,
海量数据的处理速度越来越受
到重视
,
传统的单机处理已经 呈现 出其弊端
,
如何在大量的数
据情况下提高处理速度受到广泛的关注
。Hadoop
作为一个
分布式的框架
,
其在超大数据集下的表现令人满意
。
开源软
件的错误报告随着版本的更新收到用户越来越多的反馈
,
如
何在短时间内将用户的反馈分门别类更快地进行修复已经成
为各企业提升自我软件竞争力的重点
。
用户提交软件错误报
告有着很大的随意性
,
即使事先给出类别也无法保证用户能
够正确地选对
,
因此将错误报告进行自动分类能够节省时间
并提高效率
。
目前对于软件错误报 告的 分析主要集中在错误
报告的质量
、
错误报告的最优化
、
错误报告的分类和错误报告
的修复
,
机器学习算法和信息检索技术已经被广泛应用到其
中
[1]
;
然而对于软件错误报 告自动分类改进方法的结果却不
理想
[2]
。Shokripour
等
[3]
提出的基于时间算法的精确度可以
提高到
45. 52% 。Shokripour
等
[4]
提出仅采用名词和时间元
数据的词条权重的方法可以将准确度提高到
49% 。Alenezi
等
[5]
通过词条选择的方法 将
F1
值提高到
38. 2% 。Shokripour
等
[6]
提出基于位置的错误报告加权方法使得准确度提高到
50%
左 右
;
黄 小 亮 等
[7]
提 出 的 潜 在
Dirichlet
分 配
( Latent
Dirichlet Allocation,LDA)
的软件缺陷分派方法
,
将准确度提
高到
37. 54% 。
业界对此也进行大量的研究
,
比如基于马尔可
夫链的 方法
[8]
、
基于 词 汇 知 识模 型的 方 法
[9]
和
Shokripour
等
[10]
提出的信息提取的方 法
。
以上提到的这些研究
,
都是为
了提高软件错误报告 自动 分类的精确度
。
文本自动分类的算法多种多样
,
朴素贝叶斯算法以其简
单高效的特点受到青睐
,
在其基础上的改进算 法也 层出不穷
,
比如
,
李文进等
[11]
提出的基于改进朴素 贝叶斯的区间不确定
性数据分类方法
,
翟军昌等
[12]
提出的基于增益比对特征词的
朴素贝叶斯改进算法
,
罗凌等
[13]
提出的基于树增强型贝叶斯
网络
( Tree Augmented Bayes Network,TAN)
的改进等
。
在大数
Journal of Computer Applications
计算机应用
,2016,36( 5) : 1212 - 1215,1221
ISSN 1001-9081
CODEN JYIIDU
2016-05-10
http: / /www. joca. cn
ChaoXing
评论0
最新资源