人工智能-数据分析-基于连续小波变换分析的基因表达谱数据分析.pdf资源-CSDN文库

版权申诉

9 浏览量 2022-07-08 17:51:56 上传评论收藏 1.22MB PDF 举报

资源推荐

资源详情

资源评论

摘要

Abstract

High through-put biological technology allows biologists to simultaneously monitor

the expression for hundreds of thousands of genes in organisms, and the resulting

expression data have become one of bases supporting modern biological genetics and

modern medicine. Currently, genome-wise research of cancer using gene expression

proﬁle data receives more and more concerns in bioinformatics community. Generally,

gene expression data are highly dimensional, highly noisy, highly redundant, highly

variable but with small sample, so that many traditional pattern recognition methods

and statistical methods are non-applicable or perform badly.

By viewing gene expression proﬁle as a ”time-series” signal, this thesis proposes

to apply continuous wavelet transform methods to analyze gene expression data. Es-

pecially, we focus on gene expression pattern extraction and cancer classiﬁcation. As

we all know, wavelet transform can eﬃciently decompose and reconstruct time-series

signal and has been applied to various areas. Generally, wavelet transform can be im-

plemented in two ways, i.e., discrete wavelet transform (DWT) and continuous wavelet

transform (CWT). Researchers have applied DWT to gene expression data analysis

and the results were good. In this thesis, in view of the better ﬂexibility in extracting

information of CWT compared to DWT, we consider developing CWT-based methods

to analyze gene expression data. Because there are lots of useful information hidden

behind gene expression data, using CWT to extract local details of gene expression

proﬁle is promising to perform better. In particular, we explore CWT-based methods

for analyzing gene expression data in the following aspects: (1) How diﬀerent types

of wavelet base functions inﬂuence the performance of CWT in extracting expression

patterns; (2) How varying values of the scale and translation parameters inﬂuence the

performance of CWT in extracting expression patterns;(3) How to integrate the well-

known SNR gene selection method and CWT for better extracting gene expression

patterns; (4) How the order of genes input to CWT inﬂuences the performance of

CWT in extracting gene expression patterns.

Finally, on multiple publicly available cancer data sets, we tested the proposed

CWT-based methods and extensively compared with previous methods. Experimental

results show the better performance of CWT for gene expression data analysis com-

pared with the previous methods. In summary, this work in this thesis has important

reference value for feature recognition and classiﬁcation of tumors.

Key words:continuous wavelet transform (CWT); cancer classiﬁcation; discrete

wavelet transform (DWT); feature transformation; gene expression proﬁle.

– II –

万方数据

摘要 I

Abstract II

第一章绪论 1

1.1 研究背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 研究现状 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 研究对象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4 研究内容 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

第二章基于基因表达谱数据的肿瘤分类 5

2.1 数据的预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1 极端数据的剔除 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.2 丢失数据的修补 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.3 数据的归一化处理 . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2 高维数据的降维处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2.1 特征提取和特征选择的基本概念 . . . . . . . . . . . . . . . . . . 6

2.2.2 经典的特征选择方法 . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2.3 经典的特征提取方法 . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3 肿瘤分类模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3.1 误差最小贝叶斯决策准则 . . . . . . . . . . . . . . . . . . . . . . 10

2.3.2 K最近邻分类器(KNN) . . . . . . . . . . . . . . . . . . . . . . . 11

2.4 小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

第三章小波分析的基本原理 13

3.1 小波分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.1.1 小波分析的定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.1.2 小波基的性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2 连续小波变换 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2.1 连续小波变换的定义 . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2.2 连续小波变换的性质 . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2.3 连续小波变换的逆变换 . . . . . . . . . . . . . . . . . . . . . . . 16

3.3 离散小波变换 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.3.1 离散小波变换及性质 . . . . . . . . . . . . . . . . . . . . . . . . 17

3.3.2 小波框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3.3 二进小波变换 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

– III –

万方数据

第一章绪论

§1.1 研究背景

最近的一份世界卫生组织报道称全球范围内肿瘤发病率和死亡率在过去10年间

增长了约22％

[1]

。在我国，癌症患者在20世纪70年代仅有数十万，而到90年代就超过

了200万，并成为中年人死亡的第一杀手

[3],[4]

。根据相关预计，到2020年全球肿瘤新发

病例将达到2000万，有1200万人死于癌症

[2]

。因此可以说癌症严重影响着现代人类社

会的生命健康和生活质量。这也是现任卫生部部长陈竺院士一直倡议加强对癌症研究

重要原因之一。探索肿瘤微观病理、发展有效的癌症诊断和治疗方法已经成为当前生

物医学、信息计算科学等相关领域的研究前沿。

传统的癌症研究方法通常以简单模式生物作为简化实验对象，并采用”one gene

one time”方式以避免研究的复杂性

[1]

。随着对肿瘤认识的不断加深，人们逐渐意识到

这种传统研究方法的的严重局限性：由于肿瘤的异质性、多样性以及多种细胞类型培

养液的缺乏等原因，造成这种传统方法成本高、操作复杂，且难以观察众多基因的共同

行为，成为深入研究癌症的主要瓶颈。最近的研究表明，肿瘤的发生、演进、侵袭和转移

机制等癌变机制往往是相关基因的复杂的网络行为

[8]

，因此，深入地认识和理解癌症需

要在基因组水平上对基因表达、调控等微观活动机理开展系统性的研究。上世纪90年

代出现的基因芯片技术成为了变革传统癌症研究方法、发展基因组水平的现代癌症研

究方法的强大工具

[24]

。简单的说，这种基因芯片技术依据碱基对互补的原理实现了对

大规模基因表达含量的并行检测

[9],[10]

。2006年，美国食物与药品管理局(FDA)召集生

物、医学和信息等领域的全球顶级科学家对该技术进行了广泛的验证，确认其作为基

因表达水平监测方法的有效性和精确性

[11],[12],[13]

。

人类还未能真正地认识和理解癌变的机制是造成目前癌症发病率和死亡率居高

不下的一个重要原因。传统癌症研究表明，肿瘤具有极高的复杂性和多样性，无法在

组织形态学、免疫学和遗传学方面获得可靠的肿瘤检测指标，造成对肿瘤类别以及

亚型的划分很粗糙，以至严重影响了肿瘤的临床诊断和治疗效果。最近的研究表明

癌症的转录印记能够独特地标记癌症的不同发展阶段(比如发生、扩散、侵袭等)，甚

至临床用药反应，可以说具有足够细度的以刻画肿瘤。最近，Science和Nature杂志分

别刊登了Marx和Berns等人的研究文章，同时认为基因表达谱数据的获得为癌症研究

注入了新的活力，并大胆预测其必将革新基于细胞组织形态的传统肿瘤临床诊断方

法

[14],[15]

。也有许多科学家预测有效识别肿瘤的基因表达模式将是发展未来个性化医

学(Personalized medicine)的重要基石

[16],[17],[18],[19]

。

然而，成功获取生物体内的大规模基因表达含量仅仅是深化癌症研究的开端。由

于肿瘤的复杂性和当前基因芯片技术不够成熟，有效分析基因表达谱数据、成功识别

隐含的癌症基因表达模式成为当前癌症研究的迫切任务，并对信息、计算等相关科学

提出了前所未有的挑战

[20],[21],[22],[23]

。分析基因表达谱数据的复杂性和难点可以简单概

– 1 –

万方数据

第一章绪论

述如下：(1)基因表达谱数据具有很高的维度(基因)，通常有5,000－15,000维，而且这

些基因维度之间又有非常复杂的关系。(2)生物实验的复杂和实验费用的昂贵等因素导

致当前癌症基因表达数据样本不够多，与巨大的基因数目构成了严重的数据结构不平

衡矛盾，造成现有的许多数据分析方法不能被有效使用，比如，Fisher线性分析所要求

的总类内样本协方差矩阵成为奇异阵。(3)基因表达谱数据天生具有高噪声、高变异等

分析难点。(4)基因表达谱数据中大量有用变量被隐藏，需要使用信息的或计算的方法

以挖掘这些潜在的重要生物信息。另外，当考虑时间问题(比如死亡时间，癌症复发时

间)时，又会产生不期望的审查中止(right－censoring)致使数据分析变得更加困难。

综上所述，有效分析基因表达谱数据，开展基因组水平上的癌症研究将能够帮助

人们更好地理解肿瘤发生发展机理，促进癌症的临床诊断与分类以及防治方法的开发，

具有现实的理论意义和应用价值。然而，作为当前癌症研究中最关键和最迫切的问题

之一，也对信息、计算等相关科学提出了前所未有的挑战。

§1.2 研究现状

当前，许多基于模式识别、机器学习以及信息计算技术的癌症基因表达数据分析

方法已经被提出。这些方法用于处理肿瘤关联基因选择，肿瘤及其亚型分类，肿瘤临

床疗效预测和药物反应分析等癌症研究，获得了不错的分析效果

[25],[26],[27],[28],[29]

。总

的来说，基因表达谱数据分析的挑战主要在于四个方面，小样本、高维度、高噪声及高

变异

[69]

。为处理这些问题，早期分析方法主要采用特征选择或提取方法以降低基因数

目，并达到去除来自非生物源的数据噪声

[25],[33]

。早在1999年，为了筛选出与两种常见

的白血病，ALL和AML，相关的基因，Golub等人提出了一种信噪比(SNR)基因选择方

法。该方法主要考虑每个基因在两种白血病患者群体间的平均表达水平以及样本方差

来评价基因与白血病的关联度

[25]

。随后，更多基因选择方法被提出。这些基因选择方

法可分为Wrapper和Filter两大类，其主要区别在于前者通过引入一个特定分类器然后

依据所获得的癌症分类性能来选择基因或基因子集；而后者则主要使用数据本身某个

内在特性来评价基因或基因子集的重要性。相比Wrapper方法，Filter方法通常具有易

于解释、计算复杂度低和使用方便的优点

[69]

。常用的Filter方法包括Fold Change

[18]

、

调控概率准则

[70]

、T-statistic准则及其变体

[22]

、Wilcoxon统计量方法

[23]

、以及相对熵

方法

[40]

。

不同于特征选择方法从现有特征变量中选出最相关特征，特征提取方法主要依靠

某种线性或非线性变换来生成新的特征。用于基因表达数据降维的特征提取方法主要

包括主分量分析(PCA)、独立分量分析(ICA)、偏最小二乘(PLS)等。主分量分析方法

主要通过最大化样本方差以捕捉最优的正交线性变换方向以挖掘出隐含的关键基因表

达模式

[34],[35]

。与主分量分析方法相比，虽然独立分量分析方法也实现了一种在原始数

据上的线性变换，然而该方法生成一个非正交基空间以生成新的特征变量。当信号存

在噪声时，这种非正交基能够获得更好的信号重构性能。在文献

[37]

，Nguyon等人提出

– 2 –

万方数据

剩余50页未读，继续阅读

评论收藏

内容反馈

版权申诉

programcx

粉丝: 41
资源: 13万+

人工智能-数据分析-基于连续小波变换分析的基因表达谱数据分析.pdf

基因表达数据分析.pdf

基因表达数据分析的方法.pdf

第61章基因表达谱的概念与数据分析技术.pdf

人工智能-数据分析-非负矩阵分解及在基因表达数据分析中的应用研究.pdf

在Matlab中探索基因表达数据分析最终版.pdf

MATLAB--example.zip_信号小波变换_小波 尺度谱_小波尺度谱_尺度谱_连续小波变换

基于小波变换的功率谱估计

人膀胱癌细胞NRP-1基因表达降低后基因表达谱芯片数据分析.pdf

智谱研究&AMiner-ChatGPT团队背景研究报告-2023.2-25页.pdf

论文研究-基于基因表达谱与GO的共调控基因挖掘 .pdf

人工智能-数据分析-基于贝叶斯统计思想的基因表达数据分析.pdf

基于粒子群算法的基因表达谱聚类分析方法.pdf

论文研究-基于密度和生物学知识基因表达数据分析 .pdf

基于基因表达谱芯片杂交分析免疫前后七鳃鳗白细胞的基因表达差异.pdf

基因表达谱芯片的数据分析

论文研究-基于无抽样小波变换和MCE训练的纹理分类.pdf

论文研究-基于感知小波变换的语音增强方法研究.pdf

小波变换及其MATLAB工具的应用电子书-小波变换及其MATLAB工具的应用_0.part2.rar

基于表达谱芯片数据的小鼠高脂响应基因挖掘.pdf

基于类风湿关节炎的基因表达芯片的差异分析.pdf

糖尿病性勃起功能障碍大鼠的基因表达谱芯片数据分析.pdf

基于数据挖掘的股外侧肌基因表达谱的增龄性变化研究.pdf

基于数据挖掘分析POLR2A基因在脑胶质瘤的表达及意义.pdf

随机森林在基因表达数据分析中的应用及研究进展.pdf

研究论文-一种基于小波变换的超光谱图像融合方法

论文研究-基因表达谱芯片数据挖掘系统.pdf

基于表达谱芯片数据的阿尔茨海默病易感基因的生物信息学数据挖掘.pdf

基因芯片分析急性心肌梗死患者外周血差异基因表达谱.pdf

基于基因表达谱芯片杂交分析Lamprey-PHB2转染前后Chang liver细胞的基因表达差异.pdf

最新资源

MATLAB--example.zip_信号小波变换_小波尺度谱_小波尺度谱_尺度谱_连续小波变换