论文研究-基于全方位优化算法的改进马田系统分类方法.pdf

所需积分/C币:10 2019-09-20 17:07:50 762KB .PDF

论文研究-基于全方位优化算法的改进马田系统分类方法.pdf,  针对马田系统的若干不足, 提出一种改进的马田系统优化模型, 其核心思想是 根据分类问题的目的和特点提出若干优化目标, 采用优化模型替代正交表和信噪比筛选关键变量. 针对模型的特点, 采用了一种全方位优化算法进行求解. 通过对4个 UCI数据集的算例分析表明, 该方法不仅有较好的分类精度, 且能筛选关键变量, 降维效果明显. 最后
1326 系统工程理论与实践 第32卷 7)计算异常类中所有样品的马氏距离 MD;==AS-A,=m+1,n+2,…,n+mt S仍为正常类样本的相关系数阵.若异常类样本马氏距离大于正常类样本,说明测量尺度良好 阶段3 8)使用正交表 orthogonal arrays,OAs)和信噪比( signal- noise- ratio,SNR)进行系统优化.马田系统有 p个变量,安排在正交表的前p列各有2水平,表示该变量是否包含在与田系统分析中.正交表每一行决定 哪些变量包含在一次给定的实验运行中.对每次实验运行,使用被选择变量计算异常类样木马氏距离,并据 此计算信噪比,代表每次实验运行的响应.稳健设计中有许多类型的信噪比,马田系统一般使用望大型和动 态型信噪比.本文仅讨论望大型信噪比,其公式为 SNR=-101g (1/m)2(/MDR) k=1 对于给定变量v,SN扌表示使用该变量进行实验运行的信噪比均值.SN表示未使用该变量进行实验 运行的信噪比均值,信噪比增量为SN一SN·若增量为正,则变量∽被提炼,否则将其删除 阶段4 θ)根据提炼后的变量,进行分类、诊断和预测该过程中需要确定阈值λ,确定λ的方法有多种,可根据 需要进行选择 3优化模型及方法 31优化目标 由上节可知马田系统的主要仟务是①构建马氏空间;②变量选择优化即降维:③根据优化后的变量进行 分类、诊所和预测.传统马田系统采用正交表和信噪比进行特征选择和优化,但相关文献已表明该方法存在 诸多问题,且计算较繁、.本文采用优化模型代替正交表进行特征优化和降维,其中优化目标有以下几个方面 1)分类效率最高 研究一种分类方法时,我们期望该方法能有较高的分类效率,较小的错误分类率(即误判率).错误分类是 种错误警报,将实际上属于某类的个休错误的判断为属于其他类别.表1为二类问题混淆矩阵.正例是属 于正类的样本,负例是属于负类的样本、表中TP( true positives)表示预测正确的正例数,TN( true negatives) 表示预测正确的负例数,FP( false positives)表示预测错误的正例数,FN( false negatives)表示预测错误的 负例数 表1二类问题混淆矩阵 预测止类 预测负类 实际正类 TP FN 实际负类 FP IN 正类的正确分类率( TP rate,TPR)即预测确的正例数占实际正例数比例,用(1)式表示 TP TPR 7P+F100% (1 负类的正确分类率( tN rate,TNR)即预测正确的负例数占实际负例数比例,用(2)式表示 TN TNR= 100 TN+FP 总正确分类率( correctly classified ratio,CCR)即正确分类总数占样本总数比例为,用(3)式表示 TP+TN CCR 100% TP+FN+TN+FP 根据研究惯例,正类指样本量较少的类别,即小类别;负类指样本量较多的类别,即大类别.马田系统中, 通常情况正常类的样本量较大,异常类的样量较少,因此本文将马田系统中的正常类定义为上述负类,异常 类定义为上述正类.马田系统中误判率可通过以下方法获得 设A为马田系统确定的阈值,则 FP=me=∑=1k,k 0,若MD≤入 第6期 牛俊磊,等:基于全方位优化算法的改进马田系绕分类方法 1327 TN=n FN n+r k;,k;= 1,若MD;<入 =n+1,2+2, +m 0,若MD;>入 TP=m-m 则 f 1=ICR= 100% m 马口系统优化的第一个目标是使训练集的误判率(ICR)达到最小 2)降维 马田系统另一个目标是进行特征选择和优化、选择那些对检出异常类样本最有效的变量,最大限度降低 变量个数达到降维目的,这在实际应用中将有积极意义,能够提高分类效率,降低分类时间和成本.设p。为 马田系统降维后的变量数,则可用(5)式表示降维效率.马田系统优化的第二个目标是使(5)式最小 f2 3)信噪比 信噪比在质量工程学中是价值评估工具,单位为dB.它采用有用信息(信号)与有害信息(干扰)的比 以评估系统性能.对干扰因素进行调整后,信噪比可捕捉信号影响因素的大小.马田系统中使用信噪比的主 要目的是间:④作为选择关键变量的指标:②考查系统在不同异常程度下的性能;③改进系统性能.信噪比 对提高测量精度,降低诊断成本有重要作用.传统马田系统中,信噪比只采用异常类样本数据计算.本文将正 常类样本的信噪比也进行考.依据如下育观考虑,训练集中正常类样本马氏距离波动越小(即趋近同一个 值),则更易于对属于正常类样本进行分类.仿照异常类样本信噪比计算公式,设正常类样本信噪比计算公式 为(6)式 =-10lg(/∑MD 根据马田系统性质,正常类样本的马氏距离满足(7)式 ∑M 则有 MD1+MD2+…+MD MD MD2 则 =101g(1/)∑MD,)≤0 当且仅当MD1=MD2=∴=MD=1时等式成立.此时正常类样本马氏距离相等,波动最小,最易 对这些样本进行分类.通过以上分析可知,由于(7)式的限制,实际反映了正常类样本马氏距离的部分波 动信息,我们希望∫3达到最大值,即希望正常类样本的马氏距离趋于稳定,易于分类.因此马田系统第三个 优化目标是使(6)式最大 异常类样本的信噪比为(8)式 101g(1/m)∑>(1/MD 信噪比越大,表明异常组样本整体的马氏距离越大2,对异常类样本的检出效果越好马田系统优化的 第四个目标是使(8)式最大 1328 系统工程理论与实践 第32卷 32优化模型 设 0,若;未被选择用于马田系统 1,若笱被选择用于马田系统 λ为马田系统进行分类时的阈值,(x1,x2,……,p,入)为p+1维决策向量,则优化模型为 min fi(a1, x2, (9) n+m 入)= (10 f(x12…,0)-101g(/n∑(1/MD) f4(31, a A)=10g(1/m)∑(1/MD) ∑x=p。<p =1 f1(X)<f1 (14) f3(X) 41(X) (16 x;=0或者1,=1,2,……,P min(MD)≤A≤max(MD2) 以上优化模型中约束条件(13)表示选择的变量个数要达到降维的效果;约束条件(14)表示所选变量的 分类效率要大于传统的马田系统,f为传统马田系统优化后的误判率;约束条件(15)表示正常类样本马氏 距离的波动性要小于传统马田系统,f3为传统马田系统优化后正常类样本信噪比的相反数;约束条件(16) 表示所选变量对异常类样本的检出效率要大于传统马田系统,f4为传统马田系统优化后异常类样本的信噪 比;约束条件(17)规定了模型x;的取值;约束条件(18)规定了阈值入的范围.本文将以上构建的模型称为 马口系统优化模型(MTS- optimization,MTSO) 33优化方法 MTSO模型是一个多目标非线性0-1混合规划间题,采用传统优化方法难以求解,且随着变量数的增加, 计算和求解过程将会更加复杂和困难本文采用全方位优化算法28( Omni-optimizer)进行模型的求解.该 算法是一种在遗传算法框架内,从一般优化思路岀发,目的在于解决任意类型变量和仼意个输入变量个数的 间题.目前可解决单目标规划和多目标规划问题以及单一最优解与多个最优解问题等不同类型的优化问题. 1)评佔目标值 多目标规划一般求岀帕累托最优解,再对其进行选择.根据本文研究目的,即使求出全部帕累托最优解, 仍然难以评估这些解的优劣性,因此本文采用全局判断法2对以上4个目标进行权衡全局判凼法是搜索 与理想解距离最近的解,并将该解作为满意解的一种评估多目标规划解的方法.在该方法中,理想解是在满 足相关约束的前提下使每个目标分別获得了最小值,反理想解为在满足相关约束的前提下使勾个目标分別获 得了最大值的解,由于每个日标一般在解空间中不同的位置达到最小值,因此,理想解和反理想解并不一定真 实存在.全局判断法的计算公式为式(19,其中权重的确定可根据实际情况而定 fi-f ninl ∑ wi fmax fmin (19) 2)全方位优化算法步骤 步骤1编码.根据MTSO模型特点和算法要求,π;采用2进制编码,λ采用实数型编码. 步骤2产生初始种群PO,个数为N,迭代计数器t=0,初始种群可随机产生或事先安排 步骤3将两个相同的P种群随机排序并放在一起,生成产生更大的种群Rt 步骤4产生两个子代个体,首先从R中随机选择一个个体,其次选择在基因型空间上距离第一个个 体最近的个体,然后通过锦标赛选择操作选取父代个体.重复做一次.即得到两个父代个体.该策略有利于反 第6期 牛俊磊,等:基于全方位优化算法的改进马田系绕分类方法 1329 映相似个体间的竞争性,加快算法收敛速度.之后这两个父代个体通过交叉和变异得到两个子代个体,在该 算法中,对于实数变量,使用SBX交叉30和多项式变异31,对0-1变量,使用两点交叉和位逻辑运算变异 步骤5重复步骤3,得到子代群体Qt 步骤6精英保留.将P和Q;的个体放在一起进行排序,以保证良好子代个体不足时,良好的父代个 体可保留在下一代中.排序过程使用6 domination32,将混合群体分为不同类.最优个体存储在F1中,次优 的存储在F2中等等 步骤7创建下一代群体P+1.将F1等放入Pt+1,直到种群个数限制为止 步骤8迭代,直到终止条件得到满足. 算法的伪代码为28 Begin Initialize(po) t=0//iteration counter at Rt= Shuffle(pt)u shu fle(pt) for i=1 to n-1 d l First sclcction opcration (player1, player2)=choose _nearest(Ri) parentl=tournament(player1, player2 / Second selection operation (player1, player2)=choose_nearest(Rt) parent=tournament(player1, player2) /i crossover and mutation operators (offspringl, offspring 2)=variation(parcntl, parcnt2 Q(2) Qc(i+ 1)=offspring i=i+2// increment iteration counter by 2 end of for Rt= PtU Qt// elite preservation (F1, F2, .=ranking(Rt)// best class F1 and so on t+1 1/ class numbcr while P+1UF|≤Ndo Pt +1=Pt+1U F// include classes from best crowd_dist(Fi)// assign crowding distance to each soln =j+1 end of while L=j// last class to be included partiall rem=N-P+1// remaining solutions to be filled / sort FL in decreasing order of crowding distance sorting(crowd_dist(FL)) Pt+1=P+1 U FL(1: rem)// include top solutions t=t+1// increment iteration counter un terininlation) 1330 系统工程理论与实践 第32卷 34计算时间复杂度分析 定义m,n分别表示训练样本中正常类和异常类样本数量,p表示原始变量个数,N表示全方位优化 算法中种群个数,t表示算法迭代次数,全方位优化算法中, choose nearest过程的时间复杂度为O(N2), crowd dist过程的时间复杂度为O( piloN),因此算法迭代一次的时间复杂度为max{O(N2),O( pNIn)} 计算每一个样本马氏距离的时间复杂度为O()最终,马田系统优化模型MTSO计算的时间复杂度为 maxO(pt(m+n)N2), O(p2t(m+n)Nlg N)) 4算例研究 4.1数据集和研究方法 本文选取公开的UCⅠ机器学习数据库中4个常用分类问题数据集进行算例研究.4个数据集的基本信 息见表2 表2数据集基本信息 数据集名称 变量数样本数正例表示及个数 负例表示及个数 Breast Cancer Wisconsin (Original) 9 683 Malignant/239 Benign/444 Statlog(Heart) Present/120 Absent/ 150 34 Bad/126 Pima Indians diabetes 8 768 Tested positives /268 Tested negatives/ 500 实验采用5折交叉验证法,将以上每个数据集都平均分成五份,每次实验选取其中四份作为训练集,剩 余的一份作为测试集.实验同时采用传统的马田系统(MIS),逻辑回归( logistic regression,LR),支持向量 机( support vector machine,SVM)的改进序列最小最优化( sequential minimal optimization,SMO)算法, 多层感知机( Illultilayerpatron,MLP,决策树C45与本文方法进行比较研究.这些方法中,MTSO优化选 取前5次全方位优化算法运行中的最优结果,传统MTS阈值的确定采用LSM( exhaustive search method) 使得在训练样集上达到最高判别精度,SⅥM、MLP和C4.5的参数是在较小子集上采用5折交叉验证所得 结果的最优值.以上方法计算采用 Matlab进行处理.评价每个数据集各个方法分类能力的依据是五次交叉 验证实验测试集TPR、TNR和C(R三个指标的均值.本文例出 Breast cancer Wisconsin( Original)数据 集父叉验证的详细结果以示说明,其他数据集则只显示最终分类比较结果 42 Breast cancer wisconsin( Original)数据集 使用MTSO算法进行第一次交叉验证时,四个目标函数的理想解、反理想解与权重见表3.考虑到分类 效率最为重要,权重设定为0.6;此数据集仅有9个变量,降维的意义略小,权重设定为0.1;异常类样本信噪 比重要性要高于正常类,分别设定为0.2和0.1.该数据集其他儿次交义验证计算时权重与此相同,理想解与 反理想解可分别计算,不再列出 表3第一次交叉验证MTSO算法相关参数 响数 理想解 反理想解 权重 f1 0.0201 0.2436 0.6 f2 1/9 0.1 4.1742 29.7208 0.1 f4 -11.5355 22.6986 0.2 第1次交叉验证MTSO使用全方位优化算法的求解结果见表4.同理可求出其他几次交叉验证MTSO 的优化结果 表4MTSO方法求解结果 123 入 1010000106.9917 6种分类方法在该数据集上的交叉验证详细结果见表5 第6期 牛俊磊,等:基于全方位优化算法的改进马田系绕分类方法 1331 表5 Breast Cancer Wisconsin( Original)数据集交叉验证混淆矩阵 交叉验证1交叉验证2交叉验证3交叉验证4交叉验证5 汇总 正例负例正例负例正例负例正例负例正例负例正例负例 MTSO正例45347 47 231 负例386 3 86 0 3 86 435 MTS正例462 46 负例6 l 2 6 53 l7427 LR正例453 44 45 222712 负例 SVM正例462 47 45 47 231 负例683 1 88 0 89 3 2 87 12432 MLP正例46 2 4 47 4 224 负例782 0 89 1814 85 17427 C4.5正例45 46 44 4 44 22415 负例5 84 0 3 86 13431 注:表中每行代表实际的正例或负例数.每列表示预测的正例或负例数 表6 Breast Cancer wisconsin数据集分类效果比较 TPR TNR CCR % 排名 排名 % 排名 MTSO 96.658 97.978 1 97.512 MrS 97.074 96.176 96.484 LR 97.746 96.778 SVM 97.296 97.072 MLP 93.706 96.168 6 95.310 C4.5 93.724 5 97.070 4 95.900 该数据集交叉验证TPR,TNR和CCR的均值见表6.MTSO算法对该数据集的大类别(TNR)和总 类别(CR)分类效果最好,小类别(TPR)分类效果较好整体效果优于其他几种方法.MTS对小类别分类 效果最好,整体效果处于中等.IR和sVM方法对该数据集的分类效果较好,而MP和C4.5的分类效果 略差对此数据集,文献[23]使用三种方法分类的CCR分别为98.12%,9727%和96.16%,而文献24]为 9617%,尽管交叉验证方法有所不同,但也说明本文方法分类效果比较有效.MTSO优化后变量个数平均为 3.2,MTS方法为72,降维效果明显,好于传统MTS 43其他数据集 Statlog( Heart)数据集变量个数略多.使用MTSO时四个目标函数所赋权重分别为05,0.2,0.2和0.1, 分类结果见表7.MTSO在该数据集上的分类效果最好;MTS在小类别上的分类效果优于其他方法,但对大 类别的分类效果不佳,导致总分类正确率低.LR利SVM对该数据集的分类效果较好,而MLP和C45的 分类效果略差.文献(35采用多种方法对该数据集进行分类,最高的CGR为82.1%,文献34则为81.98%, 表明本文方法有效.该数据集有14个变量,MTSO优化后变量个数平均为6.2,低于MTS方法的8.4,降维 效果明显 Ionosphere数据集变量个数较多,MTSO优化时目标函数权重分别设为0.4,0.3,0.2和0.1,分类结果 见表8.MTSO对该数据集小类别的分类效果最好,大类别分类效果中等,总分类正确率最高;MTS对小类 别分类效果较好,但大类别分类正确率最低,总分类效果处于中等LR对大类别分类效果最好,但小类别分 类效果远低于其他方法,导致总分类正确率较低;MLP和C4.5在该数据集上的分类效果较好,而SⅤM由 于小类别分类正确率铰低导致整体效果不好.文献35]采用多种方法对该数据集进行分类,最高的CCR为 9A4.2%,MTSO与之较接近.该数据集原始变量有34个,MTSO算法优化后平均变量个数为12.4,而MTS 为20.4,降维效果明显. 1332 系统工程理论与实践 第32卷 表7 Statlog( Heart)数据集分类效果比较 TPR TNR CCR % 排名 % 排名 % 排名 MTSO 81.666 86.296 MrS 81.666 76.666 78888 LR 80.000 84.814 sⅤM 79.166 88.000 MLP 79.166 4 86.000 2344 84.074 82.963 162345 C4.5 76.333 86.000 80.370 表8 Ionosphere数据集分类效果比较 TPR TNR CCR 排名 排名 % 排名 MTSO 86.1615 96.0000 92.5915 MTS 85.7231 92.0000 LR 73.8769 97.7778 SVM 76.2154 6543 96.4444 MLP 80.1231 97.7778 461315 89.7626 89.1871 89.1791 91.4567 145623 C4.5 83.3231 95.1l 90.8813 表9 Pima indians diabetes数据集分类效果比较 TPR TNR CCR 排名 % 排名 % 排名 MTSO 56.7435 86.0000 75.7830 MTS 63.0189 79.8000 73.9538 LR 56.6946 88.6000 77.4798 4612 SVM 56.6876 MLP 63.4102 43562 84.8000 351246 77.3483 77.3483 C4.5 66.0307 79.6000 4.8723 5 Pima indians diabetes数据集分类效果比较见表9,MTSO优化时目标函数权重同 brcast canccr数据 集.MTSO分类效果中等,MTS对小类别分类较好,但总体效果欠佳:LR.SVM,MLP和C4.5方法对大类 别、小类别和总类别的分类效果各有所长.经MSO优化后变量个数为2.8,低于MIS的68,降维效果明 显对此数据集,文献33使用三种方法分类的CCR分别为7581%,74.12%和7582%,文献35为756% 文36则为76.3‰.这说明虽然MTSO对该数据集分类效果不如某些方法,但整体上有效 4.4小结 1)通过以上算例研究可知,本文提出的MTSO除了对 Pima Indians diabetes数据集分类效果略差以 外,对其他三个数据集分类效果良好,尤其对小类別有着较高的分类正确率,说明该方法合理有效;传统的马 田系统对小类别有着较高的分类正确率,但对大类别分类效果一般,整体效果在这6种方法中处于中等;其 他方法在不同数据集上则表现各不相同 2)四个数据集经MTSO优化后变量个数约为原始变量个数的30%,降维效果显著,从众多变量中筛选 出了对分类最为重要和关键的核心变量,这些变量反映了多元系统的特征.这在实际应用中对节约分类时间 和成本具有积极意义 3)MTSO方法通过优化的手段,找出那些对分类最有用的变量,不仅改进了分类效果,而且达到降维的 目的,剔除掉其他可能存在的干扰因素,这是取得良好效果的内在原因 第6期 牛俊磊,等:基于全方位优化算法的改进马田系绕分类方法 1333 5案例研究 51案例描述 该案例来自江苏省内某笔记本电脑生产制造企业.为保证产品质量,笔记本电脑在出厂前需要进行多项 质量检测,例如LCD压力测试、振动测试等然而,这些涉及到许多测试项目的检测会增加操作时间和成本, 成为该企业笔记本电脑生产制造时间较长的环节.其中某种型号的笔记本电脑出厂前质量检测过程包括38 个检测变量,记为X1,X2,……,X3.该案例研究的目的是通过使用改进马田系统MTSO模型,在保证检测效 果的情况下减少检测变量,以降低生产成本,缩短流通至市场的时间.提高市场竞争力 52实施 对出厂产品进行随机抽取,并将其分为训练组和测试组.训练组包括360个合格产品和40个不合格产 品,用以构建分类模型;测试组包括90个合格产品和10个不合格产品,用以评估模型的分类能力 阶段1:使用马氏空间构建全模型测量尺度 训练集中的360个合格品为正常类(参照组).首先,收集正常类样本变量值,计算变量均值及标准差;然 后计算38个变量的标准化值:接下来使用标准化后的变量值计算正常类样本相关阵,最后计算正常类样本 马氏距离 阶段2:验证测量尺度 计算训练集中40个异常样本的马氏距离以验证测量尺度的准确性.如果阶段1中构建的测量尺度良好, 则异常类样本的马氏距离会明显大于正常类.图1呈现了全模型下(全部38个变量)正常类和异常类样本 马氏距离分布,从图中可以看出,异常类样本马氏距离要明显大于正常类,表明测量尺度有效 阶段3:使用全方位优化算法筛选关键变量 根据训练样本数据求得4个优化目标的正理想解和反理想解,及主观设定的优化目标权重见表10. 表10案例研究正、反理想解和权重 函数 理想解 反理想解 权重 f1 0.0025 0.1575 f 2 0.3 ∫3 36.0233 0.2 11.2111 24.6185 0.1 平均适应度 囡正常类样本 □异常类样本 32 0 马氏距离 代代数 图1全模型(38个变量)训练集马氏距离分布 图2案例研究MTSO模型迭代图 全方位优化算法迭代收敛效果见图2所示,解得 1 =3,8,9,10,11,12,16,18,2,23,29,31 0,i取其它值, 入-3.3628

...展开详情
试读 13P 论文研究-基于全方位优化算法的改进马田系统分类方法.pdf
img
  • 至尊王者

    成功上传501个资源即可获取

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐
    论文研究-基于全方位优化算法的改进马田系统分类方法.pdf 10积分/C币 立即下载
    1/13
    论文研究-基于全方位优化算法的改进马田系统分类方法.pdf第1页
    论文研究-基于全方位优化算法的改进马田系统分类方法.pdf第2页
    论文研究-基于全方位优化算法的改进马田系统分类方法.pdf第3页
    论文研究-基于全方位优化算法的改进马田系统分类方法.pdf第4页

    试读已结束,剩余9页未读...

    10积分/C币 立即下载 >