人工智能-数据分析-多重检验技术及其在微阵列数据分析中的应用.pdf资源-CSDN文库

版权申诉

97 浏览量 2022-07-02 00:18:23 上传评论收藏 798KB PDF 举报

《多重检验技术及其在微阵列数据分析中的应用》这篇文献主要关注了在人工智能和数据分析领域中，如何有效地处理和分析大规模数据集，特别是在生物信息学和基因组学中的微阵列数据分析。多重检验技术是统计学中处理多个独立或相关假设检验的关键方法，尤其在面对大量基因表达数据时，它有助于识别显著的差异表达基因。文章首先阐述了多重检验的基本理论，强调控制第一类错误概率的重要性。第一类错误是指在原假设为真时拒绝原假设，可能导致假阳性结果。传统的控制方法是家族错误率（FWER），但这种方法通常过于保守，可能导致检测能力受限。Benjamini & Hochberg于1995年提出的false discovery rate（FDR）控制方法，则更为灵活，能有效缓解FWER的严格性，更适用于发现样本间显著差异的情况。接着，文献对比了四种FDR控制算法，包括Bonferroni算法作为基准，通过模拟数据评估各算法的性能。模拟结果显示，基于q值的方法能够在保持良好FDR控制的同时，保持最高的检测功效。这表明q值方法在处理大规模数据时，既能降低假阳性率，又能提高真正差异基因的检出率。此外，文章还探讨了正确原假设比例（m0）的估计，这是多重检验中另一重要任务。通过对不同估计方法的模拟实验，文献提出了对Jiang & Doerge的均值法的改进，采用三次样条法代替bootstrap法进行区间划分，提高了m0估计的准确性。实验证明，这种改进方法与李伟的样条平滑估计方法功效相当，能更精确地估计m0，从而更好地指导基因筛选过程。在实际应用部分，文章使用了Hendenfalk的乳腺癌数据和Pan等人关于B细胞的数据，对比了多种估计方法在微阵列数据的基因筛选效果。结果表明，改进的均值估计法与其他算法相比，能在找到更多差异基因或在相同数量的差异基因中，减少总的基因筛选数目。这进一步验证了改进方法在估计m0和微阵列数据分析中的有效性。关键词：多重检验、FDR、p值调整、正确原假设比例、微阵列这篇文献详细介绍了多重检验技术的核心概念，强调了FDR控制在数据分析中的重要性，并展示了在微阵列数据分析中如何利用这些技术更高效地识别差异基因。对于从事生物信息学、基因组学和相关领域的研究人员来说，这些方法和技术提供了强大的工具，帮助他们在海量数据中发现关键信息。

资源推荐

资源详情

资源评论

摘要

多重检验技术及其在微阵列数据分析中的应用

摘要

多重检验是数据统计学分析的一种重要手段，其在生物信息学、基因组学等方面有

着大量的应用。本文探讨多重检验技术中错误发现率控制及正确原假设比例估计两类问

题，并且将它们用于微阵列数据差异基因的筛选。

本文首先在给出多重检验相关理论的基础上，指出在多重检验中最重要的是控制犯

第一类错误的概率，这一类问题主要通过控制 FWER 和 FDR 两个测度来解决。FWER

作为传统的控制方法过于保守，Benjanimi&Hochberg(1995)提出的 FDR 标准缓解了

FWER 取值过于严格的问题，并且在检验两个总体是否具有明显差异的问题上更具优

势。本文对四类能有效控制 FDR 的算法进行深入研究，以控制 FWER 的 Bonferroni 算

法作为其他算法比较的基准，使用模拟数据对各种控制算法进行比较，并且对原始 p 值

进行优化调整，在新的 p 值集合下比较每种错误率控制方法的功效大小。模拟结果显示

q 值方法可以在很好的控制 FDR 的同时保持最高的检验功效。

正确又有效的估计原假设比例 m

是多重检验中的一项重要任务，本文通过模拟实

验比较了几种主要的正确原假设比例 m

估计方法，并且对 Jiang&Doerge(2008)提出的均

值法提出改进，用三次样条法取代原来的 bootstrap 法来划分估计区间，进行模拟实验。

结果表明同比李伟(2014)的样条平滑估计方法，本文提出的方法能够更为准确地估计

。再者，本文使用 Hendenfalk(2001)报告的乳腺癌数据以及 Feng Pan, Tie-Lin Yang.et

al(2009)文中的 B 细胞数据进行实验，将上述几种估计方法用于微阵列数据的基因筛选，

与 Hochberg&Benjamini(2000), Storey&Tibshirani(2002)以及 Langaas, M.et al.提出的减密

度算法(2005)相比，本文方法能够找到更多的基因，或者在找到相同有效差异基因的情

况下，寻找到的总基因数目更少。而且本文改进的均值估计法和李伟的算法的功效不相

上下，检测出的差异基因也相同，这就证明了改进方法估计正确原假设比例的有效性。

关键词

：多重检验, FDR, p 值调整,正确原假设比例,微阵列

万方数据

Abstract

MULTIPLE TESTING TECHNIQUE AND ITS APPLICATION IN

THE ANALYSIS OF MICROARRAY DATA

ABSTRACT

Multiple testing is an important method of data statistics analysis. It has a lot of

applications in bioinformatics, genomics and other aspects. Two kinds of problem are

considered in this paper. One is the control of false discovery rate control and the other is the

ratio of true null hypothesis. Finally they are used for the screening of differently expressed

genes in microarray data.

This paper first introduces the theoretical basis of multiple testing, and points out that the

most important is to control the type I error in this area. This can be solved by controlling

FWER and FDR. The old approach to multiplicity problem calls for controlling the family

wise error rate (FWER), but it is thought to be too strict. The FDR proposed by

Benjanimi&Hochberg(1995) ease strict rule of FWER, and it has more advantages in

distinguishing significant difference between two samples. Four classes of algorithms for

controlling FDR are listed, while the Bonferroni procedure are set as the reference of others.

In the control of false discovery rate, simulated data were used. In the algorithm, we need to

optimize the original p value, and compare the efficiency of each method under the new p

value set. Simulation results show that the q-value method can maintain the highest power

while controlling FDR.

How to correctly and effectively estimate the ratio of true null hypothesis m

is another

emphases of our work. Several estimation methods are reviewed and an improved average

method is proposed based on Jiang&Doerge(2008). The cubic spline method is used to

estimate the interval instead of bootstrap. Meanwhile the slope method is Li Wei(2014) is also

compared. In the simulation, we found that the improved mean value method can estimate m

We apply them in the data of breast cancer in Hendenfalk(2001) and the data of B cell in Feng

Pan,Tie-Lin Yang.etl(2009). Methods above are used to screen greens in microarray data.

Compared with the methods in Hochberg&Benjamini(2000), Storey&Tibshirani(2002)and the

convest decreasing density estimate in Langaas,M.et al.(2005), the improved average method

is able to find more genes, or to find the total gene fewer in number when finding the same

effective difference genes. Our improved average method is comparable to the method in Li

Wei considering the efficacy of the algorithm. Number of distinct gene is the same. This

proved the validity of the new average method in the estimation of true null hypothesis.

Key Words

multiple testing, FDR, p value adjustment, the ratio of true null hypothesis,

microarray

万方数据

第一章绪论 .............................................................. 1

1.1 研究背景和意义 ................................................... 1

1.2 多重检验研究现状 ................................................. 1

1.3 本文研究的主要内容 ............................................... 3

第二章多重假设检验的理论基础 ............................................ 4

2.1 假设检验的基本概念 ............................................... 4

2.1.1 假设检验的两类错误 ......................................... 5

2.1.2 假设检验的功效 ............................................. 6

2.1.3 假设检验的 p 值 ............................................. 6

2.2 多重检验方法理论 ................................................. 9

2.3 多重检验错误控制率的方法 ........................................ 11

2.3.1 Bonferroni 算法 ........................................... 11

2.3.2 Benjamini and Hochberg 算法流程 ........................... 11

2.3.3 Adaptive Benjamini and Hochberg 算法流程 .................. 12

2.3.4 Benjamini and Yekutieli 算法流程 .......................... 13

2.3.5 q 值方法 .................................................. 13

2.4 模拟实验 ........................................................ 14

2.5 模拟实验结果及分析 .............................................. 15

第三章正确原假设比例估计 ............................................... 18

3.1 具体算法 ........................................................ 18

3.1.1 BH 的最低斜率法 ........................................... 18

3.1.2 Storey 的方法 ............................................. 19

3.1.3 Storey 与 Tibshirani 的估计法 .............................. 20

3.1.4 减密度估计法 .............................................. 21

3.1.5 加强的均值估计方法 ........................................ 21

3.1.6 样条平滑法 ................................................ 23

3.2 模拟实验 ........................................................ 23

3.3 结果分析 ........................................................ 26

第四章多重检验方法在微阵列数据中的应用 ................................. 28

4.1 遗传性乳腺癌数据 ................................................ 28

4.2 吸烟对女性淋巴细胞的影响数据 .................................... 31

第五章总结和展望 ....................................................... 33

III

万方数据

第一章绪论

1.1 研究背景和意义

多重检验是指成千上万的统计检验同时进行，就是首先我们先将多个单重检验看成

一个整体，然后我们只需要对这个整体进行假设检验的一个过程。多重检验在医药行业、

生物学、基因学等方面有着非常广泛的应用。例如在生物信息学方面，我们需要研究大

量生物数据复杂关系。同样是在在生物信息学中，如何确定并且检测出微阵列数据的差

异基因，就属于我们研究多重假设检验的范畴。大量高维数据的出现使得我们面临同时

进行多个假设检验的挑战。当需要同时进行成百上千甚至是上万个假设检验时，多重检

验作为最合适的分析工具，它的重要性就能很好地凸显出来了。近年来多重检验问题得

到了广泛的关注并且取得了很大的进展

[1]

。

在多重检验问题中我们需要在控制多个错误率的前提下使得检验具有足够的功效。

传统的方法是控制总 I 型错误率（FWER）

[2]

，然而 FWER 过于简单严厉，多重检验总

的错误率就要协调各个单个假设检验的错误率，只要每个单独假设检验存在一个错误，

那么总的 FWER 取值就要增加，这么做的后果就是使得整个多重检验的功效很低。

Benjamini 和 Hochberg(1995)

[3]

提出了一种新的测度，即错误发现率（FDR），也就是多

重检验中被错误拒绝的检验个数占所有被拒绝的检验个数的比例。如今，错误发现率已

经作为处理多重检验问题的一个非常流行的方法，已经凸显出不断增加的重要性和应用

价值。

在用 FWER 和 FDR 控制方法进行多重检验时，我们假设正确原假设的比例是已知

的，但是当我们进行仿真研究时，我们就需要对多重检验中正确原假设的比例进行分析

研究了。这使得我们在控制错误发现率的同时也需要进行正确原假设的估计，因此如何

估计正确原假设的比例

[4]

也是多重检验中一个重要话题。

1.2 多重检验研究现状

在统计学中，假设检验，就是在选定的标准下，在选定待检验的假设情况下，利用

样本数据来进行统计假设检验的过程，判断此假设是否正确

[4][5]

。单个假设检验

[6-8]

的理

论已经较为完善。首先我们先将第一类错误控制在一个范围，在不超出这个范围的前提

下减小 II 类错误

[9][10]

。但迅猛发展的自然学科对我们的假设检验的理论提出了新的要

求，统计工作者的工作也随着海量数据的出现变得越来越复杂。如何对海量数据进行统

计分析已成为一个重要而艰巨的课题，随着基因工程的发展，大量高维数据的出现，使

得假设检验数量不断地叠加，数据的维度不断上升，运算时间不断增加，研究者的研究

压力也越来越大，已有的假设检验理论已跟不上现代研究的步伐，研究者们应当越来越

重视研究多重检验方面的问题。对它的研究己有很长时间，见 Hochberg 和

万方数据

剩余39页未读，继续阅读

评论收藏

内容反馈

版权申诉

programyp

粉丝: 90
资源: 9323

人工智能-数据分析-多重检验技术及其在微阵列数据分析中的应用.pdf

高密度蛋白微阵列芯片技术及其在疾病研究中的应用.pdf

任丛林研究生课题\DNA微阵列技术及其在生物医学中的应用.pdf

人工智能-机器学习-块代数多重网格算法的研究及其实现技术在在油藏数值模拟软件中的应用.pdf

基于人工智能技术的大数据分析方法研究及应用分析.pdf

人工智能在数据分析中的应用研究.pdf

智能数据分析与应用课件

人工智能技术的大数据分析方法探讨.pdf

人工智能大数据平台及应用分析.pdf

人工智能-数据分析-某数字阵列雷达旁瓣对消系统设计与实测数据分析.pdf

人工智能-数据分析-基于贝叶斯统计思想的基因表达数据分析.pdf

Protein.Arrays,.Biochips,.and.Proteomics.-.Joanna.S.Albala

基于MATLAB的遗传算法及其在稀布阵列天线中的应用,基于matlab的遗传算法及其在稀布阵列天线中的应用 pdf

人工智能与数据挖掘技术应用分析.pdf

基于人工智能技术的大数据分析方法研究进展.pdf

人工智能-数据分析-海量数据分析处理方法的研究.pdf

人工智能技术在企业信息化中的应用分析.pdf

开发技术-硬件-染色体微阵列技术在胎儿常见泌尿系统结构异常中的应用.zip

DNA-微阵列芯片法检验结核与非结核分枝杆菌的临床应用价值.pdf

稀疏阵列天线雷达技术及其应用 李道京

光纤传感器及其应用技术.pdf

人工智能-图像处理-硅微通道阵列红细胞变形性测量系统图像处理分析方法研究与实现.pdf

人工智能技术在档案数据化工作中的应用分析.pdf

人工智能实例分析.pdf

基于人工智能技术的大数据分析方法研究进展.docx

人工智能技术在慕课中的运用.pdf

关于人工智能在数据质量管理中的应用-综合文档

阵列信号处理的理论与应用.pdf

最新资源

稀疏阵列天线雷达技术及其应用李道京