没有合适的资源?快使用搜索试试~ 我知道了~
人工智能-数据分析-多重检验技术及其在微阵列数据分析中的应用.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 7 浏览量
2022-07-02
00:18:23
上传
评论
收藏 798KB PDF 举报
温馨提示
试读
40页
人工智能-数据分析-多重检验技术及其在微阵列数据分析中的应用.pdf
资源推荐
资源详情
资源评论
摘要
多重检验技术及其在微阵列数据分析中的应用
摘要
多重检验是数据统计学分析的一种重要手段,其在生物信息学、基因组学等方面有
着大量的应用。本文探讨多重检验技术中错误发现率控制及正确原假设比例估计两类问
题,并且将它们用于微阵列数据差异基因的筛选。
本文首先在给出多重检验相关理论的基础上,指出在多重检验中最重要的是控制犯
第一类错误的概率,这一类问题主要通过控制 FWER 和 FDR 两个测度来解决。FWER
作为传统的控制方法过于保守,Benjanimi&Hochberg(1995)提出的 FDR 标准缓解了
FWER 取值过于严格的问题,并且在检验两个总体是否具有明显差异的问题上更具优
势。本文对四类能有效控制 FDR 的算法进行深入研究,以控制 FWER 的 Bonferroni 算
法作为其他算法比较的基准,使用模拟数据对各种控制算法进行比较,并且对原始 p 值
进行优化调整,在新的 p 值集合下比较每种错误率控制方法的功效大小。模拟结果显示
q 值方法可以在很好的控制 FDR 的同时保持最高的检验功效。
正确又有效的估计原假设比例 m
0
是多重检验中的一项重要任务,本文通过模拟实
验比较了几种主要的正确原假设比例 m
0
估计方法,并且对 Jiang&Doerge(2008)提出的均
值法提出改进,用三次样条法取代原来的 bootstrap 法来划分估计区间,进行模拟实验。
结果表明同比李伟(2014)的样条平滑估计方法,本文提出的方法能够更为准确地估计
m
0
。再者,本文使用 Hendenfalk(2001)报告的乳腺癌数据以及 Feng Pan, Tie-Lin Yang.et
al(2009)文中的 B 细胞数据进行实验,将上述几种估计方法用于微阵列数据的基因筛选,
与 Hochberg&Benjamini(2000), Storey&Tibshirani(2002)以及 Langaas, M.et al.提出的减密
度算法(2005)相比,本文方法能够找到更多的基因,或者在找到相同有效差异基因的情
况下,寻找到的总基因数目更少。而且本文改进的均值估计法和李伟的算法的功效不相
上下,检测出的差异基因也相同,这就证明了改进方法估计正确原假设比例的有效性。
关键词
:多重检验, FDR, p 值调整,正确原假设比例,微阵列
I
万方数据
Abstract
MULTIPLE TESTING TECHNIQUE AND ITS APPLICATION IN
THE ANALYSIS OF MICROARRAY DATA
ABSTRACT
Multiple testing is an important method of data statistics analysis. It has a lot of
applications in bioinformatics, genomics and other aspects. Two kinds of problem are
considered in this paper. One is the control of false discovery rate control and the other is the
ratio of true null hypothesis. Finally they are used for the screening of differently expressed
genes in microarray data.
This paper first introduces the theoretical basis of multiple testing, and points out that the
most important is to control the type I error in this area. This can be solved by controlling
FWER and FDR. The old approach to multiplicity problem calls for controlling the family
wise error rate (FWER), but it is thought to be too strict. The FDR proposed by
Benjanimi&Hochberg(1995) ease strict rule of FWER, and it has more advantages in
distinguishing significant difference between two samples. Four classes of algorithms for
controlling FDR are listed, while the Bonferroni procedure are set as the reference of others.
In the control of false discovery rate, simulated data were used. In the algorithm, we need to
optimize the original p value, and compare the efficiency of each method under the new p
value set. Simulation results show that the q-value method can maintain the highest power
while controlling FDR.
How to correctly and effectively estimate the ratio of true null hypothesis m
0
is another
emphases of our work. Several estimation methods are reviewed and an improved average
method is proposed based on Jiang&Doerge(2008). The cubic spline method is used to
estimate the interval instead of bootstrap. Meanwhile the slope method is Li Wei(2014) is also
compared. In the simulation, we found that the improved mean value method can estimate m
0
.
We apply them in the data of breast cancer in Hendenfalk(2001) and the data of B cell in Feng
Pan,Tie-Lin Yang.etl(2009). Methods above are used to screen greens in microarray data.
Compared with the methods in Hochberg&Benjamini(2000), Storey&Tibshirani(2002)and the
convest decreasing density estimate in Langaas,M.et al.(2005), the improved average method
is able to find more genes, or to find the total gene fewer in number when finding the same
effective difference genes. Our improved average method is comparable to the method in Li
Wei considering the efficacy of the algorithm. Number of distinct gene is the same. This
proved the validity of the new average method in the estimation of true null hypothesis.
Key Words
:
multiple testing, FDR, p value adjustment, the ratio of true null hypothesis,
microarray
II
万方数据
目录
目录
第一章 绪论 .............................................................. 1
1.1 研究背景和意义 ................................................... 1
1.2 多重检验研究现状 ................................................. 1
1.3 本文研究的主要内容 ............................................... 3
第二章 多重假设检验的理论基础 ............................................ 4
2.1 假设检验的基本概念 ............................................... 4
2.1.1 假设检验的两类错误 ......................................... 5
2.1.2 假设检验的功效 ............................................. 6
2.1.3 假设检验的 p 值 ............................................. 6
2.2 多重检验方法理论 ................................................. 9
2.3 多重检验错误控制率的方法 ........................................ 11
2.3.1 Bonferroni 算法 ........................................... 11
2.3.2 Benjamini and Hochberg 算法流程 ........................... 11
2.3.3 Adaptive Benjamini and Hochberg 算法流程 .................. 12
2.3.4 Benjamini and Yekutieli 算法流程 .......................... 13
2.3.5 q 值方法 .................................................. 13
2.4 模拟实验 ........................................................ 14
2.5 模拟实验结果及分析 .............................................. 15
第三章 正确原假设比例估计 ............................................... 18
3.1 具体算法 ........................................................ 18
3.1.1 BH 的最低斜率法 ........................................... 18
3.1.2 Storey 的方法 ............................................. 19
3.1.3 Storey 与 Tibshirani 的估计法 .............................. 20
3.1.4 减密度估计法 .............................................. 21
3.1.5 加强的均值估计方法 ........................................ 21
3.1.6 样条平滑法 ................................................ 23
3.2 模拟实验 ........................................................ 23
3.3 结果分析 ........................................................ 26
第四章 多重检验方法在微阵列数据中的应用 ................................. 28
4.1 遗传性乳腺癌数据 ................................................ 28
4.2 吸烟对女性淋巴细胞的影响数据 .................................... 31
第五章 总结和展望 ....................................................... 33
III
万方数据
第一章 绪论
第一章 绪论
1.1 研究背景和意义
多重检验是指成千上万的统计检验同时进行,就是首先我们先将多个单重检验看成
一个整体,然后我们只需要对这个整体进行假设检验的一个过程。多重检验在医药行业、
生物学、基因学等方面有着非常广泛的应用。例如在生物信息学方面,我们需要研究大
量生物数据复杂关系。同样是在在生物信息学中,如何确定并且检测出微阵列数据的差
异基因,就属于我们研究多重假设检验的范畴。大量高维数据的出现使得我们面临同时
进行多个假设检验的挑战。当需要同时进行成百上千甚至是上万个假设检验时,多重检
验作为最合适的分析工具,它的重要性就能很好地凸显出来了。近年来多重检验问题得
到了广泛的关注并且取得了很大的进展
[1]
。
在多重检验问题中我们需要在控制多个错误率的前提下使得检验具有足够的功效。
传统的方法是控制总 I 型错误率(FWER)
[2]
,然而 FWER 过于简单严厉,多重检验总
的错误率就要协调各个单个假设检验的错误率,只要每个单独假设检验存在一个错误,
那么总的 FWER 取值就要增加,这么做的后果就是使得整个多重检验的功效很低。
Benjamini 和 Hochberg(1995)
[3]
提出了一种新的测度,即错误发现率(FDR),也就是多
重检验中被错误拒绝的检验个数占所有被拒绝的检验个数的比例。如今,错误发现率已
经作为处理多重检验问题的一个非常流行的方法,已经凸显出不断增加的重要性和应用
价值。
在用 FWER 和 FDR 控制方法进行多重检验时,我们假设正确原假设的比例是已知
的,但是当我们进行仿真研究时,我们就需要对多重检验中正确原假设的比例进行分析
研究了。这使得我们在控制错误发现率的同时也需要进行正确原假设的估计,因此如何
估计正确原假设的比例
[4]
也是多重检验中一个重要话题。
1.2 多重检验研究现状
在统计学中,假设检验,就是在选定的标准下,在选定待检验的假设情况下,利用
样本数据来进行统计假设检验的过程,判断此假设是否正确
[4][5]
。单个假设检验
[6-8]
的理
论已经较为完善。首先我们先将第一类错误控制在一个范围,在不超出这个范围的前提
下减小 II 类错误
[9][10]
。但迅猛发展的自然学科对我们的假设检验的理论提出了新的要
求,统计工作者的工作也随着海量数据的出现变得越来越复杂。如何对海量数据进行统
计分析已成为一个重要而艰巨的课题,随着基因工程的发展,大量高维数据的出现,使
得假设检验数量不断地叠加,数据的维度不断上升,运算时间不断增加,研究者的研究
压力也越来越大,已有的假设检验理论已跟不上现代研究的步伐,研究者们应当越来越
重视研究多重检验方面的问题。对它的研究己有很长时间,见 Hochberg 和
1
万方数据
剩余39页未读,继续阅读
资源评论
programyp
- 粉丝: 86
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功