基因表达实验产生的表达谱是一个规模巨大的数据集合,通
常都涉及数以千计的基因以及数十个样本,因此具有数据量
大、维数高地特点。同时由于生物体本身的复杂性,各个基
因的表达水平可能相差极大,也可能具有高度的相似性,呈
现出分散而无序的状态。在这些数据背后隐藏着丰富的信息,
因此需要通过细致的数据挖掘工作来揭示这些信息,得到有
用的结果,其最终目标是将生物检测数据转化为人们能直观
理解的生物信息。基因表达谱的数据挖掘有两个主要研究方
向。
1. 分析基因或样本之间的相互关系,从而推测未知基因的功
能或发现未知肿瘤亚型,使用的统计方法主要是聚类分析
(无监督学习)。
2. 基因芯片可用于监测基因在不同组织样本中的表达差异,
如在正常细胞和肿瘤细胞中,那么以某些在不同样本中表达
差异显著的基因作为模板,通过判别分析(有监督学习)就
可以建立有效地疾病诊断方法。
评论0
最新资源