论文研究-基于CCS优化的FDT集成分类算法研究.pdf

所需积分/C币:9 2019-09-10 16:46:54 658KB .PDF
135
收藏 收藏
举报

模糊决策树在数据模糊化时,需要确定每个数量型属性的模糊语言项个数。另一方面,集成分类算法已成为提高模型准确率和稳定性的有效策略。提出了一种基于混沌布谷鸟(CCS)优化的FDT集成分类算法,首先用CCS算法确定数量型属性的模糊语言项个数,再通过bootstrap抽样生成FDT集成模型,最后采用OOB误差加权投票机制得到分类结果。通过4组UCI数据集验证,与其他分类算法对比,证明了该方法在分类精度上有明显的提升;同时,在处理缺失数据时,仍有较高的分类能力。
汪良楠,肖迪:基于优化的集成分类算法研究 留较好的鸟巢位置。 年,和受布谷鸟繁殖行为和 步骤用随机数∈1与P比较若r>P,则 模式觅食行为启发后提出了布谷鸟搜索算法对随机改变,得到一组新的鸟巢位置反之不变。 ,并对其优化性能进行了多次试 步骤若未达到迭代次数,返回步骤;反之输出 验,证明了算法具有控制参数少搜索路径优、全局最优鸟巢位置x 搜索能力强等优点,效果明显胜于、等算法 步骤将xh映射到 公式对应的定义域 算法基于三个理想假设: 0,1上,映射方程如下 ()每只布谷鸟一次只产一个蛋,并随机地选择鸟 巢进行孵化。 ()在随机选择的一组鸟巢中,高质量鸟巢将会被 步骤对通过公式()进行T次迭代,得到混 保留至下一代 沌序列x2=(xx2,…,x) ()布谷鸟选择的宿主鸟巢数量n是固定的宿主 步骤将混沌序列逆映射回原解空间,逆映射公式 发现鸟巢中的布谷鸟蛋的概率为P∈[Q,1(文献中 如下: P=0.25)。当宿主发现后,可以丢乔布谷鸟蛋,也可以 xl∈s,m=xCm+(xmna×-xi3)xB,m=1,2,…,4 放弃该乌巢并在新的位置建立鸟巢。布谷鸟寻窝的路 步骤将T个x,的值带入鸟窝的适应度函数, 径和位置更新公式如下 ()计算对应的适应值,保留最优的适应值对应的x1的 值作为最优鸟窝位置。 其中,1和x分别为表示第维第个鸟巢在第 和t+1代中的位置,表示点对点乘法,a表示步长控 是统计学专家 在年 制因子,是大丁零的常数(文献中,a-1),LeaV)提出的一种可重复采样方法。该采样方法的思想是通 表示随机搜索路径,随机步长服从分布如下式: 过对原始数据集D={X12X2,X3,…,Xn-1,Xn}有放回的 LcUy-l=!,1<λ≤3 ()采样产生训练集D’={X|X∈D}。对于一个数据规模 虽然布谷鸟算法相对于其他一些传统搜索算法有为n的数据集,采用有放回采样,每次从原始数据集中 着算法简单操作参数少,易于实现的优点,但其也存在取出一个数据,如此重复k次,然后再将取出的这n个 着容易陷入局部最优,搜索速度慢的缺点。当算法进行数据构成一个新规模的训练集如图。 n次迭代后,鸟窝的最优位置不发生变化时,就可以认 为算法出现早熟现象。 X1,X2,X3,…,X2-1,X 混沌()是一种非线性系统中普遍存在的现 重抽样 象,混沌变量的变化在·定的范围内具有遍历性、随机 性和规律性。将混沌变量引入到算法中,即混沌布 谷鸟算法(),可以有效避免陷入局部最优,提高搜 索速度和精确度。 重复k次 最常川的混沌系统映射模型是 模型,记作: X2,X3,Xn,…,X2,Nn-1 Xn2+1=aX2(1-Xn) () 图 重抽样示意图 式中,n=1.2.…,n,Xn为混沌变量,X,∈[0.1]。参数a 在一定的范围内变化时,该系统表现出非常复杂的动力 基于优化的集成分类算法 学行为,根据经验a在这里取值为。 模糊语言项个数k 基本步骤如下 利川算法寻找到每个属性的最优模语言项 步骤目标函数f(x),x=(x1,x2,…,x,随机生个数k,如图所示(图中 Group n代表每个属性,数字 成n个鸟巢的初始位置xi=1,2,…,n),设置算法的相代表模糊语言项个数k)。在每次得到新的模糊语言项 关参数。 个数后都要重新计算适应度值。适应度函数为分 步骤计算每个鸟巢的目标函数值,并记录当前最类的准确率。 优解。 集成分类步骤 步骤保留上代最优鸟巢位置,并按公式()对其 根据最优的模糊语言项个数(中心点个数),确定中 他鸟巢进行位置更新 心点集合的边界,用三角隶属度函数对数据模糊化。对 步骤将当前鸟巢与上·代马巢位置进行对比,保模糊化后的数据执行 拙样,建立n棵(根 () 计算机工程与应用 步骤最终的分类决策公式如下: H(x)=tgma∑I(h(x)=Y)·OOB 根据简单加权多数投票确定最终结果。 实验分析 实验数据 实验采用标准数据库中的 四个数据集来验证本文算法的有效性,数据 集具体信息如表。 表实验数据集揹述 数据集示例个数属性个数类别数 图最优模糊语言项个数确定示意图 据 思想,每一棵均可以得到一个误 差估计).最后利用误差作为权重进行投票得出结 果,如图所示 算法性能验证 为了验证算法全局寻优性能的优越性,通常选 重构采取标准测试函数来进行适成度值评价。本文选用两种 样层 重复次 检验 标准函数来进行适应度评价测试,并与 算法进 行对比分析 仿真结果如下 函数为典型的非线性多模 基本训 态函数,它的全局极值点在(,)处,最小值为。图 练层 中求得最小值为,而在距离全局极值点附近范围内有 无数个局部极值点,搜索空间比较广泛。 函数 的测试结果如图所示 综合决 簽层 图 集成分类流程图 ()重构采样层 重构采样层算法 输入:数据集D;输出:形成n个数据集Dtmm 步骤将数据集D分为Da和D3 步骤用 技术从D1m中重复抽样n次, 得到平衡数据集 D' ()基本训练层 进化代数 基本训练层算法 图 函数测试 算法的适应度值对比 输入:数据集D'mm;输出:生成n个分类模型 数的全局极值点在(,)处,最大值为 Model={FDT,FDT2,…,FDTn}。 。图中取反求最小值为-1,而在距离全局极值点附 步骤用n个数据集D'生成相应的分类近范围内有无数个局部极值点,表现出较强的震荡特 模型 函数的测试结果如图所示 步骤每个的子叶节点以置信度较高的值作 图屮的适应度值也就是目标函数的极值。通过上 为该的分类结果 述两种标准测试两数的对比可知,算法相对于 ()综合决策层 算法具有较好的适应度值曲线,所得到的 综合决策层算法 适应度值与所求的值更接近。算法的迭代更快,收 输入:n个模型;输出:分类结果。 敛速度更快,能够更快达到极值点 汪良楠,肖迪:基于优化的集成分类算法研究 表四个数据集实验结果 方法 谁确率运行时间淮确率运行时间准确率运行时间准确率运行时间 8 本文算法 进化代数 图 函数测试 算法的适应度值对比 图不同 取值下的分类准确率 优化实验 法,釆用了混沌布谷鸟算法利用全局搜索确定模糊语言 利用优化确定模糊语言项个数,需确定项个数。而模糊决策树的另外两个参数α、β是参考其 鸟巢个数(其中设置鸟巢个数为, 设置他文献确定的,存在一定的主观性,所以下一步将考虑 鸟巢个数为 设置鸟巢个数为 设置鸟巢通过粒子群智能算法确定a、B两个参数。分类只 的个数为),P-0.25。分别得出每个属性的模糊语是将置信度较高的作为分类结果未考虑应用的权重, 言项个数,如表 并且由于本文算法复杂度较高,导致运行时间较长,优 表四个数据集的属性分割 化算法性能仍是后续重要工作之一。通过集成, 并以误差作为权重,采用简单投票机制,提高了模 属性分割 数据集 型分类精度与处理缺失模糊教据的稳妵性。 参芳文献: 黄文,王正林数据挖掘:语言实验北京:电子工业 出版社, 在属性分割后,利用三角隶属度函数对数据模糊 罗可,林睦纲,郗东妹数据挖据中分类算法综述计算 机工程 化 取值为时,各分类器在四个数据集上 张巍聂进滕少华基于互信总的模糊决策树及其增量学 准确率与运行时间对比,如表所示 习江西师范大学学报 实验表明,本文算法相比其他算法精度稍高,性能 谢竞博关于模糊决策树生成过程中启发式算法的研究 较稳定:但由丁算法的复杂度增加,导致程序运行时间 河北保定:河北大学 比其他算法较长,但在准确率提高较多的情况下,增加 谢凯基于聚类的数据预处理对模糊决策树归纳的影响 适当的程序运行时间是合理的。 河北保定:河北大学, 抽样的次数不同.构建的数量就 不等,集成分类模型的精度也不尽相同,如图所示。 在抽样次数达到左右时,分类的精度趋向平稳。 总结与展望 本文提出的一种基于优化的集成分类算 (下转页)

...展开详情
试读 5P 论文研究-基于CCS优化的FDT集成分类算法研究.pdf
立即下载
限时抽奖 低至0.43元/次
身份认证后 购VIP低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于CCS优化的FDT集成分类算法研究.pdf 9积分/C币 立即下载
1/5
论文研究-基于CCS优化的FDT集成分类算法研究.pdf第1页

试读结束, 可继续读1页

9积分/C币 立即下载