论文研究-基于多目标EDA的特征基因选择.pdf

所需积分/C币:6 2019-07-22 21:34:13 397KB .PDF
收藏 收藏
举报

基因(特征)数远大于条件(样本)数,基因表达数据中往往存在大量噪声,并且生物学或医学工作者期 望能从大量的基因中挑选出与疾病诊断有关的标志基因,因此,应用基因表达数据进行疾病分类预测的关键环 节是基因选择。目前常用的方法有过滤法和缠绕法。结合过滤法和缠绕法的优点,提出基因选择的多目标分布 估计算法(MOEDA)。首先通过打分函数确定MOEDA的候选基因集合,在确定候选基因后,MOEDA通过对 KNN分类器的多个性能指标及基因数目等多个目标进行优化,从候选基因中选取综合区分能力最强的特征基 因子集
第8期 叶奇明,等:基于多目标EDA的特征基因选择 2893 时,对它的分类将会容易,对应的纠内与组间平方和比率值将其中:n为变量个数;N为优势群体D中个体数:8(X=x.D) 会很大;反之,类的界限不明显时,对应的组内与组间平方和比为比特位相等判别映数。 率值将会很小。初始基囚集经过( BSS/WSS)脩选后得到候选 c)从p(x)中采样 pop_nnm次,得到子种群 基因集0。 4总体流程 2.1编码方式 本文在VC6.0及 MATLAB6.5的开发平台下编写了相应 演化过程中每个个体对应一个优化特征基因集,个体采用的程序。该程序输入参数少,结合图形化的操作方式,方便使 0、1编码方式,位宽等于候选基因集0的个数,第i位对应着,效率较高,可在htp://hiod.whu.edu.cn下载。基于多目 候选基囚集0中第i个基囚。1代表包括,0代表不包括。 标FDA的基因选择流程如下: 基因选择们目标是特征基因集的规模最小分度高,%你,个基因 2.2目标函数及个体适应度评价 输入:∥/BSS/W5 得分最 器.k值 对样本个数不平衡有一定的敏感性,定义的多目标函数为 N/优势群体的个数 FI=I I F2=nerr /n a)预处理原始基因集,得到攸选基因集 随机产生初始种群pqp;/i为演化的代数,i=0。 ∑(e;-c,)2/k(k-1 c)pop;每个个体分类并计算适应值。 其中:k为类数;n为样本数;nm为分类器错分样本的总数目。 d)计算pop;个体的rank, distance值.从pop;选择N个优势个体得 F1中 I gene h1为特征基因集的基因数目,目标函数F1优化基到优势体D 因集的数量规模。目标函数F,统计总的错分率。F3中e、C e)根据优势群体D得到概率模型p(x)。 f)由p(x)得到产生子种群of 为第i类的错分数目,由于分类可能在多类的情况下进行,F3 g)of;每个个体分类并计算适应值 为了避免样本不平衡造成某些类的精庋很高,而某些小样本数 h)计算pop;和of1合集中个体的rank, dis tance 现起来比较容易,而且对结构比较复杂,特别是类型有重叠的个体作为pp1-1中个体的mnk, stance,择pum优势 的精度很低的情况出现,这里选择KNN分类器。因为KNN实 i)根据pop;和of;合 凊况下,有比较好的分类效果。 j)如果结束条件不满足,跳到c),否则结束。 多目标优化问题的特点是各个目标函数不可比较,甚至相3儿童小圆蓝细胞肿瘤中的特征基因选择 互影响,同一个体无法同时达到所有目标函数最优。个文借鉴 NSGA-Ⅱ中的基于 Pareto的排序选择方法为种群中每个个体 本章在儿童小圆蓝细胞肿瘤 SRBCT数据集2上应用多日 计算其秩。首先种群巾所冇的非支配解被赋予rank=1;然后标EDA选择特征基因子集。该数据有63个样本,包括了2 从种群中忽略它们,这时在种群中的新的非支配解又被赋予308个基因的表达值,肿瘤样本分为BL( burkitt lymphoma)23 rank=2,依此类推,直到种群中的所有个体都被赋予相应的例、EWs( ewing sarcoma)20例、NB( neuro blastoma)12例,RMs rank值。由非支配解的定义可知,相同rank值可以对应多个( rhabdomyosarcoma)8例。首先使用BsS/wss方法求候选基 个休,这些个体可以使用拥挤距离区分。对于具有相同因集时,指定每科类的组合方式取前30个基因,最终得到候选 rank值的个体,将个体按照目标函数值的大小依次排序,对于基因为123个。在多目标EDA中,设置种群的大小为50,迭代 处于两端的个体拥挤距离值( distance赋予无穷大,处于中间设置为25次,分类器为KN,其中K=3。随机取63个样本 的个体, distance要加上它与相邻个体的距离,如此反复,直到70%作为训练集,剩下30%的样本作为测试集,对结果进行评 所有目标函数考虑完毕。由算法的执行过程可知,拥挤距离确价。每次迭代后,取前10个作为优势个体并用UMDA来估计 定∫个体之间的差异程度,拥挤即离越大则差别越大;反之差概率樸型。 别越小。因此,参数 distance可以保证神群的多样性。最后由 图2~4为25步演化过程中种群在三个目标函数上的平 个体的mmk值和 distance值作为个体的适应度值 均值。从图2可以看到基因集规模是不断减小,在第一次迭代 2.3概率模型 时特征基因集的平均大小为109,此时已经达到了98%的平 根据概率模型的复杂程度,可以将其划分为三类:个体中均精度,可见,在过滤法中选出的候选集本身的分类已经达到 基因均无关联:个体中某因有关联,但是每个基因最多只有一不错的效果。随着算法的进行,基因的容量在不断减小,当达 个父亲节点;个体中基因关联复杂,即每个基因可能有多个父到平均包含17个基因后基本上停止减小。同时,F2、F3错误 亲节点。由于在分类预测时得到的先验知识不多,一般只有率也使相应基因的大小发生改变。另外在第16次迭代时,结 样本的类别信息。作为判别属性的基因之间的生物关系本身果出现了一个抖动,这也说明了基因集规模减小可能引起精度 很复杂,因此木文假设在分类的应用中,这些基因是相互独立的降低。随后,算法又有重新修正使错误率降低的过程 的。在这样一个前提假设下,本文应用个体中基因均无关联的 120 0.2 0.18 当015 ∴莒0.14 UMDAC univariate marginal distribution algorithm)估计概率分布 0.1 0.05 算法来构建概率模型如下 01 17 A)从当前种群中选择N个优势个体作为优势集D,N< Iteration 图2日标函数F经过图3日标函数F经过图4日标函数F经过 pop_nuim( pop_-nuim为种群大小)。 25次演化后的结果25次演化后的结果25次演化后的结果 b)由优势群体D利用UMDA构建概率模型,估计概率分布。 基囚规模是不能无限减小的,当减小到一定程度便会影响 p(x)=p(x1D)=(x,)=耳至6(X=8n1D)N 精度。因此,结束演化过程的条件可以为事先指定演化的代 2894 计算机应用研究 数,也可以设计一定的阈值,当代与代之间的适应值相差满足认知,将基因之间的已知关系也作为特征基因选择的参考,可 定条件时即可终止算法,根解决的问题而定。另外,从算能会提高多目标EDA分类预测的效果。下一步笔者将进行此 法收敛的速度来看,该算法还是比较快的。该算法具有一定的方而的研究。 概率统计意义,即从优势个体去逼近数据真实的情况,也就是参考文献 说,只有当优势个体的数目达到一定的数目时,才能比较准确1 DUGGAN D J, BITTNER M, CHEN Y,an. Expression profilin 地得到解的联合概率情况。所以本文建议在使用该算法时适 using cDNA microarray[ J]. Nature Genetics, 1999, 21( Suppl) 当地扩大种群与优势个体的数目。 l0-14 最后本文在第25代种群中选出了一个包含7个特征基因12」 KhaN J,wEJs, RINGNER M,tal. Classification and diagnostic 的子集(其F2、F3分别为0),表1是这7个基因及其生物描 predicTion of cancers using gene expression profiling and artificial nleu 述。最后一个基囚在原数据集中没有说明信息,因此为室 ral networks[J]. Nature Medicine, 2001, 7(6): 673-679 (NULL)。在这7个基因特征上,KN经过63个样本训练后,3] BREITLING;R, ARMENGAUD E, AMTMANN A,en. Rank pro 对独立测试集(包含20个测试样本)进行分类,最终得到了 ducts: a simple, yet powerful, new method to detect differentially reg- 95%的准确率(错分1个) ulated genes in replicated microarray experiments J]. FEBS Let 表17个特祉基因 ters,2004,573(1-3):83-9 ID 基医描述 4] EFRON B, TIBSHIRANI R, STOREY J, et al. Empirical Bayes anal- 47 475 Homo sapiens inducible protein mRNA, complete cds 629 896 micIutubule-assucialed prolein IB ysis of a n icroarray experimenl[ J]. Journal of the American Sta 75254 ysteine and glycine-rich protein 2(IIM domain anly tistical Association, 2001. 96(456): 1 151-1160 [5 JIRAPECH U T, AITKEN S. Feature selection and classification for 814 260 follicular lymphoma variant translocation 1 Human DNA for insulin-like growth factor I(IGF-2) microarray data analysis evolutionary methods for identifying predic 207274 on 7 and additional ORF tive genes[J. BMC Bioinformatics, 2005, 6: 148 866 702 protein tyrosine phosphatase, non-receptor type 13(APO 1/CD95( Fas)-assuciated phosphatase) [6] 00I C, TAN P. Genetic algorithms applied to multi-class prediction 435953NII.I for the analy sis of gene expression dala[ J]. Bioinformatics, 2003 19(1):37-44 4结束语 [7 DEH K, ARGAWAL S, PRATAP A, et al. A fast and elist non-dom 本文分析了特征基因选择中过滤法和缠绕法的优缺点,提 nated sorting genetic algorithm for multi-objective optimization: NS 出了基于多目标EDA的特征基因选择方法。从特征基因的数 CA-I[J]. IEEE Trans on Evol Comput, 2002, 1917(6): 182- 量规模、分类精度、精度的平衡性三个方面优化并最终得到特 征基因集。相比普通演化算法,多目标EDA不但能同时优化8 MUHLENBEIN H, PAASS G. Fronn recombination uf genes lo the es 多个日标,还能目动地从父代种群中学习得到子代种群,省略 timation of distributions I. binary parameters[ C]// Proc of the 4th In 了普通演化算法在交叉、变异过程中的参数设置与评估工作 ternat ional Conference on Parallel Problem Solvin g from N ature. Lor 该方法在儿童小圆蓝细胞肿瘤2000多个基因中选择出7个 don: Springer-Verlag, 1996: 178-187 特征基因,分类精度达到95%。 [9 DUDOIT S, FRIDLY AND J, SPEED T P. Comparison of discrimin 本文提岀的多目标F冂A,使用的概率模型是假设基因之 tion methods for the classific ation of tumors using gene expression data 间是相互独立的。由丁对当前生物学上基因之间的关系还知 [J. Journal of the American Statistical Association, 2002, 97 之甚少,这种假设是合理的。但是随着更多基囚之间的关系被 (457):77-87 (上接第2857页) 4 KERNIGHAN B, LIN S. An efficient heuristic procedure for partitio ning graphs J. Bell System Technical Journal, 1970, 49(1) 4结束语 291-307 本文从挖掘论坛上潜在的用户虚拟社区问题出发,提出了5] FORDL R, FULKERSON D R. Maximal flow through a network l Canadian journal of mathematics 1956.8.399-404 种基于局部最优的图分类算法LOCA。实验证明该算法能 [6 GIRVAN M, NEWMAN M E J. Community structure in sorial and 够有效准确地从大规模网络中挖掘出有效的用户社区,解决了 biological networks[ J. Proc of National Academy Sciences of 传统图聚类算法计算量过大的问题,因此具有实际意义和应用 the United States of America, 2002, 99(12): 8271-8275 价值。 [7 KLEINBERG JM. Authurilalive sources in a hyperlinked environmen 参考文献: [JI. Journal of the ACM, 1998, 46(5): 604-632 [1]李军利,赵红领,范明.邮件社区划分和小世界网终[冂].计算机[8]才华,周春光,王〃,等.动态网络中的社区挖掘算法研究[J·吉 应用,208,28(4):146-149 林大学学报,2008,26(4):380-385 [2]胡海波,王科,徐玲,等.基于复杂网络理论的在线社会网络分析[9]周春光,曲鹏程,王暖,等DSNE:一个新的动态社会刈络分析算 LJ」.复杂系统与复杂性私学,2008,5(2):1-14 法[J].吉林大学学报,208,38(2):408413 3]陈君,唐雁,基于W咖b社会网络的个性化Web信息推荐模型[10]王慧芳,黄林鵬,俞晟,一和增量式的社区发现寘法研究[J].计 [J].计算机科学,2006,33(4):185-193 算机仿真,2008,25(1):149-152

...展开详情
试读 4P 论文研究-基于多目标EDA的特征基因选择.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    img

    关注 私信 TA的资源

    上传资源赚积分,得勋章
    最新推荐
    论文研究-基于多目标EDA的特征基因选择.pdf 6积分/C币 立即下载
    1/4
    论文研究-基于多目标EDA的特征基因选择.pdf第1页
    论文研究-基于多目标EDA的特征基因选择.pdf第2页

    试读已结束,剩余2页未读...

    6积分/C币 立即下载 >