论文研究-一种基于信息熵的多分类器动态组合方法.pdf

所需积分/C币:9 2019-09-07 17:44:33 575KB .PDF
18
收藏 收藏
举报

为提高数据分类的性能,提出了一种基于信息熵[1]的多分类器动态组合方法(EMDA)。此方法在多个UCI标准数据集上进行了测试,并与由集成学习算法—AdaBoost,训练出的各个基分类器的分类效果进行比较,证明了该算法的有效性。
1482008,44(22) Computer Engineering and Applications计算机工程与应用 第2个聚类集被错误分类的样本数量为m2 集,对于这样的数据集,它的分类效果有明显的优势。 (2)EMDA算法采用多种不同类型的基分类器比其他方法 第k个聚类集被错误分类的样本数量为m,且假设测试中只使用一种类型的基分类器的分类正确率要好,充分说明不 数据总数为M,则EMDA的错误率为: 同分类器之间的差异互补性。从实验数据中也可以看出,基分 类器的分类效果对EMDA影响很大,如正确率差距很小的数 i=1 errorEd- (i=1,2,…,k) (8)据集: breastcancer-w,crea-g等,EMDA的正确率较高;而数据 M 集 glass letter vehicle等的分类效果差距很大,EMDA的正确 率就相对较低。因此,考虑使用何种类型的基分类器来提高分 实验及结果分析 类的正确率是非常重要的。 实验中采用 Adaboost算法作为集成学习的学习方法,决 (3)由于EMDA生成基分类器是随机的,为了能更准确地 策树、贝叶斯、k-近邻作为基分类器,使用的学习算法分别为计算出测量结果,采用了多次测量求平均值的方法,因此在时 J48、 Naive Bayes和IB算法。利用随机数生成器在训练数据集间的耗费上较其他方法可能要多一些,但是考虑到正确率,时 的每个小集合上随机的生成50个不同类型的分类器,然后根间复杂度问题应该可以忽略。 据信息熵选择岀10个可靠性较好的,去分类对应测试集中的 聚类集。由于要对测试集进行聚类,考虑到存在小数据集的情5结论 况,EMDA采用4折交叉验证来生成随机的数据集。另外,由于 EMDA算法的优越性:EMDA使用随机数生成器产生多种 分类器的生成是随机的,所以应采用多次计算求平均的方法,不同类型的分类器,并且从训练出的大量分类器中选出部分性 EMDA选用50次循环,来最终求得正确率。然后使用UCI标准能较好的来用于测试,体现出了分类器多样性的特点。同时 数据集,对EMDA以及在 Adaboost基础上生成的三种基分类EMDA采用了有导师学习与无导师学习相结合的思想,使用了 器所测得的正确率进行比较,实验结果如表1。 有导师的决策树、神经网络、K-近邻分类方法与无导师的聚类 表1EMDA及在 Adaboost基础上生成的3种分类器所测正确比较方法相结合,使得分类正确率明显提高。由于采用了聚类这种 正确率/% 无导师的分类方法,对测试样本进行了聚类,然后利用有类别 序号数据集( dataset) Adaboost adaboost Adaboost 标签的训练数据集的每个具有相同标签的小样本集训练产生 EMDA (48) (NB)(IBk) 性能较好的分类器,再使用这些分类器组去分类测试数据,所 1 breastcancer-w98614396.1373958512959943 以在实际中可以利用该方法处理没有类别标签的样本。 heat- statlog97886080.0000814815755556 因此,在以后的实际应用中,应充分考虑分类器差异互补 95.709487.081379904387.5598 的特点以及有导师与无导师的分类方法相结合的思想,有关如 92.142991.228189473785.9649 hepatitis91.589283.870078.7097819355 何结合这些思想还需进一步的研究。 credit-g91.4000754000754000724000 letter1 9.681091.360063.220089.9800 参考文献: sonaI 86.538583.173185.096286.0577 谢华,夏顺仁,高光金基于分类器融合的骨髓细胞识别研究J计 85975984.513379,203578.3186 算机工程与应用,2005,41(27):184-186 10 78.185760.246630.182056.8213 [2]刘汝杰,袁保宗,唐晓芬一种新的基于聚类的多分类器融合算法J 75.166673.364546.729067.2897 计算机研究与发展,2001,38(10):1236-1241 automobile72.124883.414660.000074.1463 3]全昌勤,何婷婷,姬东鸿,等基于多分类器决策的词义消歧方法 13 vehicle71.750178487045981169.2671 lean 65.336192.016883.193385.5042 计算机研究与发展,2006,43(5):933-939 15 hayes-roth55.787974242475757661.3636 4] Mitchel t m机器学习M北京:机械工业出版社,2006:166-167 注:数据集 letter是原 letter中前5000个实例,由于考虑到运 5]方敏集成学习的多分类器动态融合方法研究[系统工程与电子 行速度的问题 技术,2006,28(11):1759-1761 f6] Witten h, Eibe e数据挖掘实用机器学习技术[M].2版.北京:机 根据表1中的实验数据对EMDA做如下分析: 械工业出版社,2006:212-214 (1)在表1中的15个UC数据集EMDA算法正确率高于7 Dymitr ruta, Bogdan Gabrys Classifier selection for majority voting. 其他3种方法的有10个因此从数据集的特点来看,EMDA算 Information Fusion, 2005, 6(1): 63-81 法适合于处理样本数较大,属性个数较多的数据集,当然更适8 Wang Xiao, Wang Han Classification by evolutionary ensembles[J 合于处理含有较多数值性属性并且样本数量不是很大的数据 Pattern Recognition, 2006, 39(4): 595-607 (上接83页) [2]Coupean M Electrostatic spraying of liquids: main function models[J]. [5] van Wijk J J Flow visualization with surface particles [J].IEEE Journal of Electrostatic, 1990, 25(1): 165-184 Computer Graphics Applications, 1993(7) 3]周浩生,冼福生荷电射流雾化硏究J江苏大学学报:自然科学版,6]黄晶晶.基于 OpenGL的发动机试车仿真动画设计J计算机仿真 1995,16(4):7-12 2005,22(4):214-217 4]高全杰,陈馨基于粒子系统的静电喷涂雾化模拟研究冶金设卩7] Wright R s, Sweet Jr MOpenGL北京:人民邮电出版社,2001 备,2004,12(6):47-49 8]江早 OpenGL VC/VB图形编程M北京:科学出版社,2001

...展开详情
试读 3P 论文研究-一种基于信息熵的多分类器动态组合方法.pdf
立即下载 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-一种基于信息熵的多分类器动态组合方法.pdf 9积分/C币 立即下载
1/3
论文研究-一种基于信息熵的多分类器动态组合方法.pdf第1页

试读结束, 可继续阅读

9积分/C币 立即下载