论文研究-基于相关性分析的癌症诊断 .pdf

所需积分/C币:15 2019-08-26 12:18:52 188KB .PDF
17
收藏 收藏
举报

基于相关性分析的癌症诊断,孙伟芳,,基因表达谱数据的高维数不仅导致癌症诊断正确率不高,而且影响诊断速度。本文采用秩和检验的统计方法进行降维,对降维后的数据由
国科技论文在线 算每个基因的值并且据此筛选出个表达差异显著的基因,即值最大的前个基因, 从而得到精简的微阵列样本。 相关系数权值法 相关系数是用米测定变量间相关关系程度及方向的统计指标。对分类而言,条件属性和 汏策属性之间的相关程度越高,条件属性对分类的重要性应越大。因此,可以利用相关系 数来描述基因类别间相关以及自相关,通过计算相关系数权值来提高重要已知样本对于分类 器的作用,提高癌症诊断的精度,并算法简单,速度快。这种方法与监督学习方法如、 等相比省去了对已知样本的训练,与非监督方法如 聚类相比,最终的 诊断结果可以知道癌症的关别标签 相关系数权值法算法如下 相关系数是衡量两个样本线性相关密切程度的量。两个癌症样本、’的相关系数计算 公式为: y 其中,、,表示瘴症样本、中所有基因表达水平的平均数 从每一类中所选取的已知样本的数量是相同的,设从第类癌症样本数据中仟意选取 个样本作为已知样本,对所选取的个已知样本依据公式计算样本的基因表达水平间 的相关系数,并把每一已知样本与其它口知样本间的相关系数相加。设第个已知样本与 其 个已知样本的相关系数之和为 ∑y 其中,"表示其它个已知样本中的任意一个。 由式计算第类癌症样本中第个已知样本的相关系数内部权重,。 y 对任意未知样本,依据式计算与第类的第个已知样本的相关系数y,,则 样本与第类癌症的相关性为 其中表示所有已知样本中的任意一个。反映的是未知样本与个各类别已知样本间的相 关性大小。 根据式分别计算出样本与个癌症类别的相关性,将样本归为最大值时所处 的那一类,则该类标签就是未知样木的类标签。 算法步骤 国科技论文在线 第·步,把微阵列数据集用秩和检验的方法降维至预定的维数。 第二步,在每一类中选取个样本作为已知样本,并计算样本间的相关系数,根据以 上原理计算己知样本的内部权值。 第三步,计算未知样本和已知样本间的相关系数,并与上面所计算内部权值对应相乘,再根 据式()计算出此未知样本在各类间的权值,则得出的最大结果所对应的那一类就是该未 知样本所属的类别。 实验数据集及仿真分析 实验数据集相关下载网站为 共下载了组数据集。如表所 表癌症数据集 数据集 样本类别 样本 (急性淋巴细胞) 白血病数据集 (混合系白血病) 急性髓系白血病) (尤文家族肿瘤) 蓝色小原细胞瘤数据 (神经母细胞瘤) (丰霍奇金淋巴瘤 集 (橫纹肌肉瘤 对两组癌症数据集用 仿真平台实验,经过秩和检验把维数降至维后在各 类中随机选取个样本作为已知样本,剩余样本作为测试样本。对相关系数权值法和 方法应用交叉验证法统计仿真结果,对于 取多次仿真后稳定的结果,得到的仿真 实验结果如表和表所示。 表数据集实验结果 分类方法相关系数权值法 样本类别 各类正确率 总正确率 表数据集 实验结果 方法 相关系数权值法 样本类别 各类正确率 总正确率 实验数据中,总正确率表小数据集中被正确分类的样本数与总样本数的比值。相关系数 杖值法在选取不同的训练样本时,诊断止桷卒也会有所不同,但其只会在某·范围内上下变 化,波动不大。仿貞实验结果衣明,与支持向量机和均值聚类相比,在秩和检验降维后, 利用相关系数杈值法建立诊断模型,对于和 数据集,每一种癌症类型的分类 正确率都达到了以上,总的正确率为 和 在数据集实验结果中,本 国科技论文在线 文方法所得的和,症类别分类正确率高于其它两种方法 的诊断正确率为 ,仅次于方法 方法所得癌症类型的诊断正确率最高,但方法 对其亡两种癌症类别正确率都只为。分析数据集 的仿真结果,本文方法的 和,症类别分类正确率达到 和 都是三种方法中最高的。 类别的正确率也达到了,虽相比法的稍低,但是总正硝率却是 其它方法不能个及的。总之,该模型的癌症诊断正确率人人提高,结果较理想ε而且,该模 型与 聚类分类方法相比,不但分类正确率有所提高,还可以给出每个样本的类标 签同样,为癌症的诊断提供了更大的便利。 结论 本文提出了一种基于构造类别间的相关性权值的癌症诊断模型,)给出了相应的算法实 现步骤。该模型采用秩和检验对多类别数据集降维,并结合线性相关系数建立诊断模型。仿 真实验表明,该方法提高了诊断正确率的同时,还给出了每个样本的类标签,实现了癌症的 有效诊断。由于本文的算法对于不同的训练样本,诊断正确率会有所不同,今后会在训练样 本的有效选取上作深入研究。 参考文献 丁化龙顾国昌赵靖等基于微阵列数据的癌症分类问题矿究进展计算机科学 马尽文邓明半生物医学信息处理生物学与信息学技术专题 柳回春马树元支持向量机的研究现状中国图象图形学报 娄冬华秋和检验的统计思想中国卫生统计 弘明卫王波张斌等基于相关系数的加权朴素贝叶斯分类算法东北大学学报 张吐强吕杰能蒋峥等关于相关系数的探讨数学的实践与认识

...展开详情
试读 5P 论文研究-基于相关性分析的癌症诊断 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于相关性分析的癌症诊断 .pdf 15积分/C币 立即下载
1/5
论文研究-基于相关性分析的癌症诊断 .pdf第1页

试读结束, 可继续读1页

15积分/C币 立即下载 >