论文研究-基于属性约简的Entropy-KNN改进算法 .pdf

所需积分/C币:50 2019-08-14 17:27:59 413KB .PDF
收藏 收藏
举报

基于属性约简的Entropy-KNN改进算法,赵晓丽,韦凌云,为降低维度灾难对分类算法效率和准确率的影响,本文提出基于属性约简的Entropy-KNN改进算法,将信息论中的信息熵理论与KNN算法结合起�
山国武花论文在丝 分类精确度最高的·个经验值作为相关度阈值: ()属性约简ε将每个条件属性相关度与阈值进行比较,选取相关度大于等于阙值的 条件属性,删除所有相关度小于阈值的条件属性。 根据以上三个步骤,可以对条件属性进行约简。 基于属性约简的 改进算法 改进算法的流稈图如图所示: 训练样本 计算各个条件+ 属性的相关度 确定相关度的飒值 属性约简+ 选取最近邻样本 训练样本 类可信度判+ 类判别 准确率评估4 分类结果4 图改进算法流程图 基于属性约简的 改进算法将信息熵应用于算法中,将仁意两个样 本间相同属性值的平均信息熵定义为距离。首先进行基于相关度的属性约简,其次计算测试 样本与各训练样本的距离 ,选取距离小的前个近邻样本,第三统计各类近邻样本 个数,计算待测样本与各类的平均距离,最后利用公式()计算待测样本与各类的类可 信度 ,判断待测样本的类别。 定义(距离)设为任意两个样本,与相同属性值为 与的距 离定义如下: 定义(类可信度)设代表类别,为待测样木,为近令样木总数,为近邻中 属于类的样本,为近邻样本属于类的样本个数。称 为对的类可信度, 计算公式如下: 山国武花论文在丝 其中一∑ 为与类的平均距离 越小,属于类的可信度越高。 公式()对的判断不仅基于近邻样本中属于类的个数,更重要的是基于与类的 平均距离。 实验结果与分析 为了验证改进算法的有效性和正确性及相对于 算法、传统的优越 性,利用组标准数据集进行实验,数据集描述如表所示 表数据集描述 序号 1 101 17 8124 32561 15 实验采用折交叉验证,将样本划分为训练集和测试集,其中选取作为训练样本, 其余的作为测试样本。实验结果如图所示,实验结果显示了分类准确率的变化随着 值和阈值不断变化的趋势。为约简后剩余属性的个数 10000 0.9800 0.9600 ■0.9800-1.0000 e0.9400 ■0.9600-0.9800 0.9400-0.9600 0.9200 画0.9200-0.9400 ■0.9000-0.9200 0.9000 周值8 ↓>10l3l619 K值 图改进算法的准确率随阈值δ和近邻取值的变化情况 ing with the threshold o 由图分析可得,当阈值介于 时,分类的准桷率较高。出现以上结论的主 要原因是:阈值取小于的数值时,没有有效地降低维度火难问题对算法准确率 的影响程度;当阈值大于 ,则增加了过度拟合出现的概率,从而影响算法的 分类准确率。为确保仿真实验的可行性,在比较算法准确率的过程中,将阈值取 山国武花论文在丝 的均值,即将阀值取为,实验的具体结果如图所示。 0.8500 10000 0.8O0( (.998() 0.7500 09960 0. 7000 0.9940 0.6500 0.9920 0.6000 0.9900 0.5500 0.9880 0.5000 09860 k=3k=5k=10k-15k=20k=25 k3k=5k=10k-15k-20k-25 1)zoo数据集准确率折线图 2) mushroon数拈集准确率折线图 0.0000 0.8800 传统KN 0.8600 0.8400 KnN 0.8200 0.8000 一款进 Entropy.-KN(6=0190) 0.7800 k3k=5k=10k-15k=201=25 3)adu山t数据集准确率折线图 图改进算法与传统 算法的准确率比较 从图可以得出,不同的值下,基于属性约简的 准确率一致高于传统 算法 算法,随着值越大准确率差距越大,并且数据集越大,效果越 明显。实验分析表明,属性约简可以选择很少量的特征,并且保持甚至显著提高约简数据的 分类精度,验证了改进方法的有效性。 结论 本文提出的 改进算法目的是降低维度灾难对分类的影响,是在对测试样 本进行分类之前,先对训练集进行属性的约简,删除对分类器性能影响较小或者根本没有影 响的冗余条件属性,并且来用类可信度综合考虑各类近邻样本的个数及平均距离,使得待测 样木属于各类的可信度更为准确地区别廾来,从而得到正确的分类结果。实验结果表明,该 算法不但保持原始数据信息的完整性而且冇效地降低了维度灾难问题对分类性能的影响,提 高了算法的准确率,使得分类器的性能更好。 参考文献 山国武技论文在丝 桑应宾棊于近邻的分类算法研究重庆:重庆大学硕士论文, 干国胤,于洪,杨大春基于条件信息熵的决策表约简计算机学报 张玲珠,周忠眉结合属性值贡献度与平均相似度的改进算法计算机程与应用, 王増民王开珏基丁熵权的最临近算法改进计算机学报

...展开详情
试读 6P 论文研究-基于属性约简的Entropy-KNN改进算法 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
抢沙发
一个资源只可评论一次,评论内容不能少于5个字
weixin_39840924 你的留言是对我莫大的支持
2019-08-14
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
最新推荐
论文研究-基于属性约简的Entropy-KNN改进算法 .pdf 50积分/C币 立即下载
1/6
论文研究-基于属性约简的Entropy-KNN改进算法 .pdf第1页
论文研究-基于属性约简的Entropy-KNN改进算法 .pdf第2页

试读结束, 可继续阅读

50积分/C币 立即下载 >