没有合适的资源?快使用搜索试试~ 我知道了~
人工智能-数据分析-基于连续小波变换分析的基因表达谱数据分析.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 9 浏览量
2022-07-08
17:51:56
上传
评论
收藏 1.22MB PDF 举报
温馨提示
试读
51页
人工智能-数据分析-基于连续小波变换分析的基因表达谱数据分析.pdf
资源推荐
资源详情
资源评论
摘 要
Abstract
High through-put biological technology allows biologists to simultaneously monitor
the expression for hundreds of thousands of genes in organisms, and the resulting
expression data have become one of bases supporting modern biological genetics and
modern medicine. Currently, genome-wise research of cancer using gene expression
profile data receives more and more concerns in bioinformatics community. Generally,
gene expression data are highly dimensional, highly noisy, highly redundant, highly
variable but with small sample, so that many traditional pattern recognition methods
and statistical methods are non-applicable or perform badly.
By viewing gene expression profile as a ”time-series” signal, this thesis proposes
to apply continuous wavelet transform methods to analyze gene expression data. Es-
pecially, we focus on gene expression pattern extraction and cancer classification. As
we all know, wavelet transform can efficiently decompose and reconstruct time-series
signal and has been applied to various areas. Generally, wavelet transform can be im-
plemented in two ways, i.e., discrete wavelet transform (DWT) and continuous wavelet
transform (CWT). Researchers have applied DWT to gene expression data analysis
and the results were good. In this thesis, in view of the better flexibility in extracting
information of CWT compared to DWT, we consider developing CWT-based methods
to analyze gene expression data. Because there are lots of useful information hidden
behind gene expression data, using CWT to extract local details of gene expression
profile is promising to perform better. In particular, we explore CWT-based methods
for analyzing gene expression data in the following aspects: (1) How different types
of wavelet base functions influence the performance of CWT in extracting expression
patterns; (2) How varying values of the scale and translation parameters influence the
performance of CWT in extracting expression patterns;(3) How to integrate the well-
known SNR gene selection method and CWT for better extracting gene expression
patterns; (4) How the order of genes input to CWT influences the performance of
CWT in extracting gene expression patterns.
Finally, on multiple publicly available cancer data sets, we tested the proposed
CWT-based methods and extensively compared with previous methods. Experimental
results show the better performance of CWT for gene expression data analysis com-
pared with the previous methods. In summary, this work in this thesis has important
reference value for feature recognition and classification of tumors.
Key words:continuous wavelet transform (CWT); cancer classification; discrete
wavelet transform (DWT); feature transformation; gene expression profile.
– II –
万方数据
目 录
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1 研究背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 研究现状 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 研究对象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 研究内容 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
第二章 基于基因表达谱数据的肿瘤分类 5
2.1 数据的预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 极端数据的剔除 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 丢失数据的修补 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.3 数据的归一化处理 . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 高维数据的降维处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1 特征提取和特征选择的基本概念 . . . . . . . . . . . . . . . . . . 6
2.2.2 经典的特征选择方法 . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.3 经典的特征提取方法 . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 肿瘤分类模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 误差最小贝叶斯决策准则 . . . . . . . . . . . . . . . . . . . . . . 10
2.3.2 K最近邻分类器(KNN) . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
第三章 小波分析的基本原理 13
3.1 小波分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.1 小波分析的定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.2 小波基的性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 连续小波变换 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.1 连续小波变换的定义 . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.2 连续小波变换的性质 . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.3 连续小波变换的逆变换 . . . . . . . . . . . . . . . . . . . . . . . 16
3.3 离散小波变换 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3.1 离散小波变换及性质 . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3.2 小波框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3.3 二进小波变换 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
– III –
万方数据
目 录
3.4 多尺度分析与正交小波变换 . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4.1 多尺度分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4.2 尺度函数与小波函数的性质 . . . . . . . . . . . . . . . . . . . . 24
3.4.3 正交小波变换与Mallat算法 . . . . . . . . . . . . . . . . . . . . . 27
3.4.4 离散序列的小波分解 . . . . . . . . . . . . . . . . . . . . . . . . 29
3.5 小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
第四章 基于连续小波变换的基因表达谱数据分析 31
4.1 本文所使用的四个肿瘤基因表达谱数据集 . . . . . . . . . . . . . . . . 31
4.2 基于小波变换的肿瘤特征模式提取 . . . . . . . . . . . . . . . . . . . . 32
4.2.1 连续小波变换的肿瘤特征模式提取 . . . . . . . . . . . . . . . . 32
4.2.2 离散小波变换的肿瘤特征模式提取 . . . . . . . . . . . . . . . . 34
4.3 实验结果与分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.3.1 原始基因空间和连续小波变换特征空间的比较 . . . . . . . . . . 34
4.3.2 连续小波变换和离散小波变换特征提取性能的比较 . . . . . . . 35
4.3.3 连续小波变换方法和传统的特征提取方法比较 . . . . . . . . . . 37
4.3.4 小波变换参数和分类性能之间的关系 . . . . . . . . . . . . . . . 40
4.3.5 基因顺序对小波变换分析的影响 . . . . . . . . . . . . . . . . . . 41
4.4 小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
第五章 总结和展望 44
参考文献 45
致 谢 50
作者在攻读硕士期间主要研究成果 51
– IV –
万方数据
第一章 绪论
第一章 绪论
§1.1 研究背景
最近的一份世界卫生组织报道称全球范围内肿瘤发病率和死亡率在过去10年间
增长了约22%
[1]
。在我国,癌症患者在20世纪70年代仅有数十万,而到90年代就超过
了200万,并成为中年人死亡的第一杀手
[3],[4]
。根据相关预计,到2020年全球肿瘤新发
病例将达到2000万,有1200万人死于癌症
[2]
。因此可以说癌症严重影响着现代人类社
会的生命健康和生活质量。这也是现任卫生部部长陈竺院士一直倡议加强对癌症研究
重要原因之一。探索肿瘤微观病理、发展有效的癌症诊断和治疗方法已经成为当前生
物医学、信息计算科学等相关领域的研究前沿。
传统的癌症研究方法通常以简单模式生物作为简化实验对象,并采用”one gene
one time”方式以避免研究的复杂性
[1]
。随着对肿瘤认识的不断加深,人们逐渐意识到
这种传统研究方法的的严重局限性:由于肿瘤的异质性、多样性以及多种细胞类型培
养液的缺乏等原因,造成这种传统方法成本高、操作复杂,且难以观察众多基因的共同
行为,成为深入研究癌症的主要瓶颈。最近的研究表明,肿瘤的发生、演进、侵袭和转移
机制等癌变机制往往是相关基因的复杂的网络行为
[8]
,因此,深入地认识和理解癌症需
要在基因组水平上对基因表达、调控等微观活动机理开展系统性的研究。上世纪90年
代出现的基因芯片技术成为了变革传统癌症研究方法、发展基因组水平的现代癌症研
究方法的强大工具
[24]
。简单的说,这种基因芯片技术依据碱基对互补的原理实现了对
大规模基因表达含量的并行检测
[9],[10]
。2006年,美国食物与药品管理局(FDA)召集生
物、医学和信息等领域的全球顶级科学家对该技术进行了广泛的验证,确认其作为基
因表达水平监测方法的有效性和精确性
[11],[12],[13]
。
人类还未能真正地认识和理解癌变的机制是造成目前癌症发病率和死亡率居高
不下的一个重要原因。传统癌症研究表明,肿瘤具有极高的复杂性和多样性,无法在
组织形态学、免疫学和遗传学方面获得可靠的肿瘤检测指标,造成对肿瘤类别以及
亚型的划分很粗糙,以至严重影响了肿瘤的临床诊断和治疗效果。最近的研究表明
癌症的转录印记能够独特地标记癌症的不同发展阶段(比如发生、扩散、侵袭等),甚
至临床用药反应,可以说具有足够细度的以刻画肿瘤。最近,Science和Nature杂志分
别刊登了Marx和Berns等人的研究文章,同时认为基因表达谱数据的获得为癌症研究
注入了新的活力,并大胆预测其必将革新基于细胞组织形态的传统肿瘤临床诊断方
法
[14],[15]
。也有许多科学家预测有效识别肿瘤的基因表达模式将是发展未来个性化医
学(Personalized medicine)的重要基石
[16],[17],[18],[19]
。
然而,成功获取生物体内的大规模基因表达含量仅仅是深化癌症研究的开端。由
于肿瘤的复杂性和当前基因芯片技术不够成熟,有效分析基因表达谱数据、成功识别
隐含的癌症基因表达模式成为当前癌症研究的迫切任务,并对信息、计算等相关科学
提出了前所未有的挑战
[20],[21],[22],[23]
。分析基因表达谱数据的复杂性和难点可以简单概
– 1 –
万方数据
第一章 绪论
述如下:(1)基因表达谱数据具有很高的维度(基因),通常有5,000-15,000维,而且这
些基因维度之间又有非常复杂的关系。(2)生物实验的复杂和实验费用的昂贵等因素导
致当前癌症基因表达数据样本不够多,与巨大的基因数目构成了严重的数据结构不平
衡矛盾,造成现有的许多数据分析方法不能被有效使用,比如,Fisher线性分析所要求
的总类内样本协方差矩阵成为奇异阵。(3)基因表达谱数据天生具有高噪声、高变异等
分析难点。(4)基因表达谱数据中大量有用变量被隐藏,需要使用信息的或计算的方法
以挖掘这些潜在的重要生物信息。另外,当考虑时间问题(比如死亡时间,癌症复发时
间)时,又会产生不期望的审查中止(right-censoring)致使数据分析变得更加困难。
综上所述,有效分析基因表达谱数据,开展基因组水平上的癌症研究将能够帮助
人们更好地理解肿瘤发生发展机理,促进癌症的临床诊断与分类以及防治方法的开发,
具有现实的理论意义和应用价值。然而,作为当前癌症研究中最关键和最迫切的问题
之一,也对信息、计算等相关科学提出了前所未有的挑战。
§1.2 研究现状
当前,许多基于模式识别、机器学习以及信息计算技术的癌症基因表达数据分析
方法已经被提出。这些方法用于处理肿瘤关联基因选择,肿瘤及其亚型分类,肿瘤临
床疗效预测和药物反应分析等癌症研究,获得了不错的分析效果
[25],[26],[27],[28],[29]
。总
的来说,基因表达谱数据分析的挑战主要在于四个方面,小样本、高维度、高噪声及高
变异
[69]
。为处理这些问题,早期分析方法主要采用特征选择或提取方法以降低基因数
目,并达到去除来自非生物源的数据噪声
[25],[33]
。早在1999年,为了筛选出与两种常见
的白血病,ALL和AML,相关的基因,Golub等人提出了一种信噪比(SNR)基因选择方
法。该方法主要考虑每个基因在两种白血病患者群体间的平均表达水平以及样本方差
来评价基因与白血病的关联度
[25]
。随后,更多基因选择方法被提出。这些基因选择方
法可分为Wrapper和Filter两大类,其主要区别在于前者通过引入一个特定分类器然后
依据所获得的癌症分类性能来选择基因或基因子集;而后者则主要使用数据本身某个
内在特性来评价基因或基因子集的重要性。相比Wrapper方法,Filter方法通常具有易
于解释、计算复杂度低和使用方便的优点
[69]
。常用的Filter方法包括Fold Change
[18]
、
调控概率准则
[70]
、T-statistic准则及其变体
[22]
、Wilcoxon统计量方法
[23]
、以及相对熵
方法
[40]
。
不同于特征选择方法从现有特征变量中选出最相关特征,特征提取方法主要依靠
某种线性或非线性变换来生成新的特征。用于基因表达数据降维的特征提取方法主要
包括主分量分析(PCA)、独立分量分析(ICA)、偏最小二乘(PLS)等。主分量分析方法
主要通过最大化样本方差以捕捉最优的正交线性变换方向以挖掘出隐含的关键基因表
达模式
[34],[35]
。与主分量分析方法相比,虽然独立分量分析方法也实现了一种在原始数
据上的线性变换,然而该方法生成一个非正交基空间以生成新的特征变量。当信号存
在噪声时,这种非正交基能够获得更好的信号重构性能。在文献
[37]
,Nguyon等人提出
– 2 –
万方数据
剩余50页未读,继续阅读
资源评论
programcx
- 粉丝: 41
- 资源: 13万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功