使用分层抽样随机森林的全基因组SNP数据的SNP选择和分类

研究论文

5 下载量 30 浏览量 2021-04-12 22:46:05 上传评论 2 收藏 1.8MB PDF 举报

温馨提示

试读

12页

对于复杂疾病的高维全基因组关联（GWA）病例对照数据，通常有很大一部分与疾病无关的单核苷酸多态性（SNP）。在随机森林中使用默认参数选择特征子空间的一种简单随机抽样方法将选择太多子空间而没有提供信息的SNP。为了包括有用的和相关的SNP并摆脱大量的非信息性SNP，经常需要穷举搜索最优值。但是，它太耗时，并且在GWA中对高维数据不利。本文的主要目的是提出一种用于特征子空间选择的分层采样方法，以在随机森林中为GWA高维数据生成决策树。我们的想法是设计一种等宽的离散化方案，以提供信息，将SNP分为多个组。在特征子空间选择中，我们从每个组中随机选择相同数量的SNP，并将它们组合形成一个子空间以生成决策树。这种分层采样过程的优点是可以确保每个子空间包含足够的有用SNP，但是可以避免穷举搜索最优值所产生的很高的计算成本，并且可以保持随机森林的随机性。我们采用了两个全基因组SNP数据集（帕金森病病例对照数据由408803个SNP组成，阿尔茨海默病病例对照数据由380157个SNP组成），证明了所提出的分层抽样方法是有效的，并且可以生成更好的随机森林与Breiman的随机森林生成方法相比，具有更高的准确性和更低的错误界限。对于帕金森数据，我们还显示了通过该方法鉴定的一些有趣的基因，这些基因可能与神经系统疾病有关，需要进一步的生物学研究。

资源推荐

资源评论