没有合适的资源?快使用搜索试试~ 我知道了~
基于统计学习的影像遗传学方法综述1
需积分: 0 1 下载量 86 浏览量
2022-08-03
12:11:45
上传
评论
收藏 2.13MB PDF 举报
温馨提示
试读
12页
第 44 卷第 1 期2018 年 1 月基于统计学习的影像遗传学方法综述郝小可 1李蝉秀 1严景文 2沈 理 2张道强 1近年来随着多模态神经影像技术和基因检
资源详情
资源评论
资源推荐
第 44 卷 第 1 期 自 动 化 学 报 Vol. 44, No. 1
2018 年 1 月 ACTA AUTOMATICA SINICA January, 2018
基于统计学习的影像遗传学方法综述
郝小可
1
李蝉秀
1
严景文
2
沈 理
2
张道强
1
摘 要 近年来随着多模态神经影像技术和基因检测技术的发展, 影像遗传学这一交叉学科的研究能够运用脑影像技术将人
类大脑的结构与功能作为表型来评价基因对个体的影响, 使得人们可以在脑的宏观结构上以更客观的测量手段理解基因对行
为或精神疾病的影响. 而统计学习方法作为基于数据驱动的关联分析强有力工具, 能够充分利用生物标志数据内在的结构信
息构建模型来分析易感基因与大脑结构或者功能的相关性, 从而更好地揭示脑认知行为或者相关疾病的产生机制. 本文首先
简要介绍了影像遗传学的研究背景和基本原理, 然后回顾了单变量方法在影像遗传学研究中的应用, 随后对基于多变量统计
学习的基因 – 影像关联的研究思路和建模方法进行了归纳总结, 最后对遗传影像学的未来研究发展方向进行了分析和展望.
关键词 影像遗传学, 统计学习, 结构化稀疏学习, 多变量分析, 关联分析
引用格式 郝小可, 李蝉秀, 严景文, 沈理, 张道强. 基于统计学习的影像遗传学方法综述. 自动化学报, 2018, 44(1): 13−24
DOI 10.16383/j.aas.2018.c160696
A Review of Statistical-learning Imaging Genetics
HAO Xiao-Ke
1
LI Chan-Xiu
1
YAN Jing-Wen
2
SHEN Li
2
ZHANG Dao-Qiang
1
Abstract The past decade has witnessed the increasing development of multimodal neuroimaging and genomic tech-
niques. Imaging genetics, an interdisciplinary field, aims to evaluate and characterize genetic variants in individuals that
influence phenotypic measures derived from structural and functional brain images. This strategy is able to reveal the
complex mechanisms via macroscopic intermediates from genetic level to cognition and psychiatric disorders in humans.
On the other hand, statistical learning methods, as a powerful tool in the data-driven based association study, can make
full use of priori-knowledge (inter correlated structure information among imaging and genetic data) for correlation mod-
elling. Therefore, the association study can address the correlations between risk gene and brain structure or function, so
as to help explore a better mechanistic understanding of behaviors or disordered brain functions. This paper firstly re-
views the related background and fundamental work in imaging genetics and then shows the univariate statistical learning
approaches for correlation analysis. Subsequently, it summarizes the main idea and modeling in gene-imaging association
studies based on multivariate statistical learning. Finally, this paper presents some prospects of future work.
Key words Imaging genetics, statistical learning, structured sparse learning, multivariate analysis, association analysis
Citation Hao Xiao-Ke, Li Chan-Xiu, Yan Jing-Wen, Shen Li, Zhang Dao-Qiang. A review of statistical-learning imaging
genetics. Acta Automatica Sinica, 2018, 44(1): 13−24
近年来, 神经影像学伴随着认知神经科学的发
展为人脑工作机制的研究带来了新的活力. 同时随
着无创式脑成像技术的发展, 研究者们希望能够从
脑结构和脑功能的层次来研究与情绪加工相关的脑
活动影响, 从而探索神经系统疾病易感性个体差异
的神经基础. 其中, 常用的相关脑成像包括结构磁
共振成像 (Structural magnetic resonance imaging,
收稿日期 2016-09-30 录用日期 2017-04-10
Manuscript received September 30, 2016; accepted April 10,
2017
国家自然科学基金 (61422204, 61473149, 61732006) 资助
Supported by National Natural Science Foundation of China
(61422204, 61473149, 61732006)
本文责任编委 朱朝喆
Recommended by Associate Editor ZHU Chao-Zhe
1. 南京 航空 航天 大学 计算 机科 学与 技术 学院 南京 211106 中国
2. 印第安纳大学医学院 印第安纳波利斯 46202 美国
1. School of Computer Science and Technology, Nanjing Uni-
versity of Aeronautics and Astronautics, Nanjing 211106, China
2. School of Medicine, Indiana University, Indianapolis, IN
46202, USA
sMRI)、功能磁共振成像 (Functional magnetic res-
onance imaging, fMRI)、弥散张量成像 (Diffusion
tensor imaging, DTI)、正电子发射断层扫描成像
(Positron emission tomography, PET). 与此同时,
随着遗传学技术的发展, 研究者们可以从更精细的
分子水平 (例如单核苷酸多态性 (Single nucleotide
polymorphism, SNP)) 来寻找神经系统疾病和精神
疾病相关的遗传标记.
在神经影像学和分子遗传学的基础之上, Hariri
等提出了影像遗传学 (Imaging genetics 或 Imaging
genomics) 这一概念, 即结合多模态神经影像学和遗
传学方法, 检测脑结构及与神经疾病、认知和情绪调
节等行为相关脑功能的遗传变异
[1−3]
.
其运用脑影像技术将脑的结构与功能作为表型
来评价基因对个体的影响, 探讨基因是如何影响大
脑的神经结构和功能, 以及由此导致的神经系统病
理. 研究遗传与大脑结构和功能的相关性, 在 “基
14 自 动 化 学 报 44 卷
因与脑” 之间架起一座看得见的桥梁
[4−6]
, 可以更好
地揭示神经精神疾病的发病机制. 影像遗传学这种
工具同时还可以识别出某种脑疾病的生物学指标或
其内表型, 为预测和诊断疾病提供了更精确的方法.
具体来说, 由于 SNP 是在基因组水平上单个核苷酸
变异引起的 DNA 序列多态性, 在一定程度上反映
了个体的遗传特性, 因此, 研究者大多考虑将 SNP
作为关联分析的基因型数据. 在内表型数据获取中,
研究者大多采用临床上广泛使用的 MRI 脑影像数
据进行分析: sMRI 作为度量大脑结构组织的成像
技术, 能够量化分析形态学 (如灰质体积) 的异常;
fMRI 作为血氧水平依赖功能成像技术, 无论静息态
还是任务态, 都能够反映不同脑区的激活程度, 从而
产生明显的信号差异. 基于不同模态脑成像技术, 目
前影像遗传学主要关注基因 SNP 与脑结构、功能、
连接关联分析的相关研究
[7−10]
.
早期的影像遗传学是单变量成对的统计分析方
法, 即通过多次检验, 发现 SNP 或者基因与复杂疾
病或可测的数量性状 (Quantitative trait, QT) 的
关联性研究方法. 而全基因组关联研究 (Genome-
wide association study, GWAS) 正是利用全基因
组高通量测序技术, 对研究对象的基因组中序列
变异进行分型, 并利用生物统计学和生物信息学
的方法, 最终筛选出具有显著性的 SNP
[11]
. 自从
2005 年 Science 上发表的第一篇有关年龄相关性视
网膜黄斑变性 (Age-related macular degeneration)
GWAS 研究论文
[12]
以来, 该方法也被用在精神疾
病的分析上
[13]
. GWAS 在影像遗传学的研究中发挥
了极大的作用, 但是也存在一些问题, 比如, 严格的
多重校正, 使得许多微小效应的变异无法通过校正
水平. 其次, GWAS 仅仅能得到遗传变异跟性状之
间的单个关联程度, 并不能很好地解释其中的复杂
机制.
近年来, 随着统计学习在学术界和工业界迅
速发展, 许多领域已经尝试利用这些数据分析工
具来解决本领域的一些问题. 而在影像遗传学的
关联分 析 中, 相 对 于 单 变量统计分 析, 基 于 多变
量的统计学习技术的应用最为广泛, 同时也取得
了非常 理 想 的 效 果. 国际 上, 一些学 者 也 撰 写 了
影像遗传学的相关方法综述文献: 1) Medland 等
针对使用传统的单变量统计模型处理大规模全基
因组 – 全脑影像关联分析提出了所面临的问题和
挑战, 回顾了研究者在不同中心数据库 (其中 包
括 ENIGMA
1
、IMAGEN
2
、IMAGENMEND
3
以及
ADNI
4
等) 的研究成果
[14]
; 2) Liu 等主要对独立成
1
http://enigma.ini.usc.edu/
2
http://www.imagen-europe.com/
3
http://www.imagemend.eu/
4
http://adni.loni.usc.edu/
分分析 (ICA) 等其他多变量方法在影像遗传学中的
应用进行了归纳和总结
[15]
; 3) Thompson 等在综述
中重点回顾了基因与大脑结构连接 (DTI) 与功能网
络 (静息态 fMRI) 之间的相关分析工作
[16]
. 本文在
以上综述工作的基础上, 首先对基于统计学习的遗
传 – 影像关联研究进展进行回顾, 如图 1 所示, 其中
包括单变量和多变量统计学习方法; 本文重点关注
基于结构化的多变量分析建模思路和算法框架, 即
通过生物学过程以及医学领域知识 (如代谢通路/网
络、多模态融合、诊断信息等) 诱导的方法获得更好
的关联性能和生物解释; 最后, 对遗传影像学中一些
待解决的问题以及未来研究发展方向进行了展望.
1 单变量分析方法
单基因变量统计分析中最常见的方法是设立实
验组和对照组进行皮尔森卡方检验 (Pearson
0
s chi-
squared test) 作为等位基因检测方法, 即通过分析
各种病症的一组病人和一组正常对照者的相应基因
组位点之间是否有统计差异来确认该位点是否是致
病基因的. 基于单变量统计方法的基因 – 影像关联
分析可以使用线性回归 (Linear regression) 和方差
分析 (Analysis of variance) 模型作为等位基因的
关联分析方法
[17]
. 多次单变量模型, 假设基因特征
维数为 p, 影像特征维数为 q, 则需要拟合 p × q 个
线性回归模型 (y
j
= β
jk
x
k
), 检测所有 p × q 个零
假设 (null hypotheses H
0
: β
jk
= 0), 最后对 p 值
(p-value) 进行排序. 例如, 一个较早的经典工作是
来自 2009 年 Potkin 等在病例与对照组和影像表现
型上进行全基因组 GWAS 关联分析, SNP 对脑区
定量表现型的影响可以通过广义的线性模型来计算,
该模型由影像表现型、疾病诊断和基因数据共同构
建, 表达式如下:
Y = b
0
+ b
1
· SNP + b
2
· APOEe4 +
b
3
· gender + b
4
· age + b
5
· diagnosis+
b
6
· SNP × diagnosis + ² (1)
其中, Y 表示神经影像某一脑区的 QT, b
i
表示各
个变量系数, SNP×diagnosis 表示相互作用的关系.
模型分析得到的显著 p 值即为 SNP 与 QT 相关的
检测结果
[18]
.
在单变量基因 – 脑影像关联检测中, 我们根据
研究问题的规模, 将其归纳成不同的尺度
[19]
: 在基
因层面包括 1) 候选基因/SNP
[20−23]
, 2) 相关生物
功能特性通路/网络
[24−26]
, 3) 全 基 因 组
[18, 27−30]
;
相 应 的 在 脑 影 像 层 面 包 括 1) 个 别 感 兴 趣 区
域
[18, 20, 24, 27]
, 2) 包含多个感兴趣区的回路
[21, 25, 28]
,
3) 全脑
[22−23, 26, 29−30]
. 无论是候选基因位点 SNP
1 期 郝小可等: 基于统计学习的影像遗传学方法综述 15
图 1 基于统计学习的影像遗传学关联分析研究方法
Fig. 1 Association analysis in imaging genetics based on statistical learning
与神经影像
[31]
、脑脊液
[32]
、认知量表得分
[33]
等其他
任何 QT 关联分析, 还是全基因组与神经影像关联
分析
[29]
, 甚至可以考虑全基因组与更小粒度的体素
级别的脑影像之间进行关联分析
[30]
, 线性回归与方
差分析的方法都可以解决不同尺度的影像遗传学研
究问题. 在单变量基因影像关联分析研究中, 有些研
究者已经发布了相关的统计分析软件, 如 Plink
5[34]
.
GWAS 遗传统计分析要从上百万甚至上千万
个 SNP 中发现与疾病表型的关联. 尽管可以利用
Bonferroni 校正来严格地控制显著性
[35−36]
, 但是这
种策略会导致许多微小效应的变异无法通过校正水
平, 而多个这样的微小效应变异有可能会共同作用
从而对性状产生较大的影响. 单变量分析方法在影
像遗传学中的应用具有较为直观的解释性, 能够简
单快速地检测出单个 SNP 与单个 QT 之间的关联
程度, 但由于数据变量的高维特性而导致的很大数
量的多重比较最终使得统计测试结果不具有显著性,
而且上述检验方法基于一个严格的假设, 即基因位
点或者影像特征变量之间是统计独立的, 而忽略了
变量之间相关性这一重要信息. 因此, 面对单变量方
法存在的不足, 在高维特征的基因 – 影像关联分析
这一研究问题中仍然需要在方法学上进行改进和创
新.
2 多变量分析方法
继 2010 年 Stein 等提出基于单变量体素级别
的全基因组关联分析 (vGWAS)
[30]
之后, Hibar 等
提出了一种基于多变量的体素级别全基因组关联分
析 (Voxel-wise gene-wide association study, vGe-
neWAS)
[37−38]
. 该方法将一个基因内的所有 SNP
通过主成分回归 (Principal components regression,
PCReg) 的方法来解决变量共线性的问题, 首先在
SNP 回归变量集上使用主成分分析 (Principle com-
ponent analysis, PCA) 获得最大化方差的相互正
交因子, 然后对这些正交因子使用标准的偏 F 测试
(Partial F-test). Hibar 等使用与 Stein 等在 2010
年工作中相同的基因和脑影像数据集, 通过 SNP
形成的若干个基因的分组, 然后联合这些分组后的
SNP 与体素级别的影像进行关联测试. 实验结果表
明, 该方法获得了更好的关联性能, 并且减少了统计
测试的次数. 因此, 为了增强基因与性状的关联检测
能力, 一些学者和研究人员通过使用多变量方法来
解决影像遗传学中多基因或多位点联合效应的关联
问题
[15, 39]
. 近年来, 基于统计学习的影像遗传学研
究备受关注, 很多工作是通过求解目标函数的优化
问题来实现检测和识别具有高度关联的基因和影像
5
http://pngu.mgh.harvard.edu/∼purcell/plink/download.shtml
剩余11页未读,继续阅读
woo静
- 粉丝: 23
- 资源: 347
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0