云环境下软件错误报告自动分类算法改进资源-CSDN文库

188 浏览量 2021-02-07 01:27:50 上传评论收藏 1.2MB PDF 举报

资源详情

资源评论

收稿日期

: 2015-11-17;

修回日期

: 2016-01-11。

基金项目

国家自然科学基金资助项目

( 61472082) ;

福建省自然科学基金资助项目

( 2014J01220) 。

作者简介

黄伟

( 1991—) ，

男

，

福建闽侯人

，

硕士研究生

，

主要研究方向

文本挖掘

、

大数据挖掘

;

林劼

( 1972—) ，

男

，

福建三明人

，

副教授

，

博士

，

主要研究方向

数据挖掘

;

江育娥

( 1970—) ，

女

，

福建古田人

，

教授

，

博士

，

主要研究方向

数据挖掘

。

文章编号

: 1001-9081( 2016) 05-1212-04 DOI: 10． 11772 /j． issn． 1001-9081． 2016． 05 ． 1212

云环境下软件错误报告自动分类算法改进

黄伟

，

林劼

，

江育娥

(

福建师范大学软件学院

，

福州

350108)

( *

通信作者电子邮箱

hwssg@ 126． com)

摘要

用户提交的软件错误报告随意性大

、

主观性强且内容少导致自动分类正确率不高

，

需要花费大量人工干

预时间

。

随着互联网的快速发展用户提交的错误报告数量也不断增加

，

如何在海量数据下提高其自动分类的精确度

越来越受到关注

。

通过改进词频

逆文档频率

( TF-IDF) ，

考虑到词条在类间和类内出现情况对文本分类的影响

，

提出

一种基于软件错误报告数据集的改进多项式朴素贝叶斯算法

，

同时在

Hadoop

平台下使用

MapReduce

计算模型实现

该算法的分布式版本

。

实验结果表明

，

改进的多项式朴素贝叶斯算法将

值提高到

71% ，

比原算法提高了

个百

分点

，

同时在海量数据下可以通过拓展节点的方式缩短运行时间

，

有较好的执行效率

。

关键词

多项式朴素贝叶斯

;

错误报告

;

文本自动分类

;

词频

逆文档频率

;

云计算

中图分类号

: TP311

文献标志码

: A

Improved automatic classification algorithm of software bug report in cloud environment

HUANG Wei， LIN Jie， JIANG Yu e

( Faculty of Software， Fujian Normal University， Fuzhou Fujian 350108， China)

Abstract: User-submitted bug reports are arbitrary and subjective． The accuracy of automatic classification of bug reports

is not ideal． Hence it requires many human labors to intervention． With the bug reports database growing bigger and bigger，

the problem of improving the accuracy of automatic classification of these reports is becoming urgent． A TF-IDF ( Term

Frequency-Inverse Document Freqency) based Naive Bayes ( NB) algorithm was proposed． It not only considered the

relationship of a term in different classes but also the relationship of a term inside a class． It was also implemented in

distributed parallel environment of MapReduce model in Hadoop platform． The experimental results show that the proposed

Naive Bayes algorithm improves the performance of

F1 measument to 71% ， which is 27 percentage poin

ts higher than the state-

of-the-art method． And it is able to deal with massive amounts of data in distributed way by addding computational node to

offer shorter running time and has better effective performance．

Key words: Naive Bayes of polynomials; bug report; text automatic classification; Term Frequency-Inverse Document

Frequency ( TF-IDF) ; cloud computing

引言

随着大数据时代的到来

，

海量数据的处理速度越来越受

到重视

，

传统的单机处理已经呈现出其弊端

，

如何在大量的数

据情况下提高处理速度受到广泛的关注

。Hadoop

作为一个

分布式的框架

，

其在超大数据集下的表现令人满意

。

开源软

件的错误报告随着版本的更新收到用户越来越多的反馈

，

如

何在短时间内将用户的反馈分门别类更快地进行修复已经成

为各企业提升自我软件竞争力的重点

。

用户提交软件错误报

告有着很大的随意性

，

即使事先给出类别也无法保证用户能

够正确地选对

，

因此将错误报告进行自动分类能够节省时间

并提高效率

。

目前对于软件错误报告的分析主要集中在错误

报告的质量

、

错误报告的最优化

、

错误报告的分类和错误报告

的修复

，

机器学习算法和信息检索技术已经被广泛应用到其

中

［1］

;

然而对于软件错误报告自动分类改进方法的结果却不

理想

［2］

。Shokripour

等

［3］

提出的基于时间算法的精确度可以

提高到

45． 52% 。Shokripour

等

［4］

提出仅采用名词和时间元

数据的词条权重的方法可以将准确度提高到

49% 。Alenezi

等

［5］

通过词条选择的方法将

值提高到

38． 2% 。Shokripour

等

［6］

提出基于位置的错误报告加权方法使得准确度提高到

50%

左右

;

黄小亮等

［7］

提出的潜在

Dirichlet

分配

( Latent

Dirichlet Allocation，LDA)

的软件缺陷分派方法

，

将准确度提

高到

37． 54% 。

业界对此也进行大量的研究

，

比如基于马尔可

夫链的方法

［8］

、

基于词汇知识模型的方法

［9］

和

Shokripour

等

［10］

提出的信息提取的方法

。

以上提到的这些研究

，

都是为

了提高软件错误报告自动分类的精确度

。

文本自动分类的算法多种多样

，

朴素贝叶斯算法以其简

单高效的特点受到青睐

，

在其基础上的改进算法也层出不穷

，

比如

，

李文进等

［11］

提出的基于改进朴素贝叶斯的区间不确定

性数据分类方法

，

翟军昌等

［12］

提出的基于增益比对特征词的

朴素贝叶斯改进算法

，

罗凌等

［13］

提出的基于树增强型贝叶斯

网络

( Tree Augmented Bayes Network，TAN)

的改进等

。

在大数

Journal of Computer Applications

计算机应用

，2016，36( 5) : 1212 － 1215，1221

ISSN 1001-9081

CODEN JYIIDU

2016-05-10

http: / /www． joca． cn

ChaoXing

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

评论收藏

内容反馈

云环境下软件错误报告自动分类算法改进

评论0

最新资源

云环境下软件错误报告自动分类算法改进

评论0

最新资源

相关推荐

软件工程知识点

KNN算法实验报告.doc

改进聚类算法global fuzzy C-means gfcm方法

真像函数绘制软件v1.0

软件测试规范

论文研究-基于特征提取的点云自动配准优化研究.pdf

2005-2009软件设计师历年真题

多模态磁共振脑肿瘤图像自动分割算法研究

驱动精灵（可以备份驱动，也可以升级驱动）

基于领域特征词的突发事件层次分类方法 (2012年)

机器学习numpy和pandas基础.zip

统计学个人学习笔记.zip

Scala机器学习Scala机器学习.zip

密码管家 - 最强大的密码管理助手

一种改进的无监督学习SVM及其在故障识别中的应用* (2006年)

数据挖掘读书报告.docx

PHPWind 3.0.1 Beta

密码管家 - 最强大的密码管理助手(2012年2月2日重新上传v2.5.0)

fpv4 flash相册系统

Origin绘制相关性热图插件(Correlation Plot)

2024春 四川农业大学 数字电子技术 期末机考试卷答案

（免费）Chrome浏览器插件axure-chrome-extension

vep视频快速加密提取器

糖尿病数据集diabetes.csv（免费）

最新版YS9082HC主控开卡工具 YS9082HC-MPToolV8.00.00.18.826-HCS1A25E2023062

2011-2022年北大数字普惠金融指数数据（包括省市县）.zip

noc指导教师资格认证题库

IEEE 802.11be（WiFi7） 协议原文pdf文档

ESRI-Licensing文件夹，安装arcgispro无法破解登录

2024春四川农业大学数字电子技术期末机考试卷答案

IEEE 802.11be（WiFi7）协议原文pdf文档