没有合适的资源?快使用搜索试试~ 我知道了~
论文笔记-Spatially informed cell-type deconvolution for spatial tran
需积分: 0 0 下载量 21 浏览量
2022-08-29
09:51:34
上传
评论
收藏 50.66MB DOCX 举报
温馨提示
试读
30页
论文笔记--Spatially informed cell-type deconvolution for spatial transcriptomics
资源推荐
资源详情
资源评论
论 文 笔 记 Spatially informed cell-type deconvolution for spatial
transcriptomics
(Nature Biotechnology 2022, 来自密西根大学)
论文摘要
许多空间分辨的转录组技术没有单细胞分辨率,而是从潜在的异质细胞类型的混合细胞中
测量每个点的平均基因表达。在这里,我们介绍了一种反褶积方法,即基于条件自回归的反褶
积(CARD),它将来自单细胞 RNA 测序(scRNA-seq)的细胞类型特异性表达信息与跨组织位置
的细胞类型组成的相关性结合起来。建模空间相关性可以使我们能够跨位置借用细胞类型的组
成信息,提高反褶积的准确性,即使有一个不匹配的 scRNA-seq 参考。CARD 还可以在未测
量的组织位置输入细胞类型组成和基因表达水平,从而构建一个精确的空间组织图,其分辨率
任意高于原始研究中的测量值,并可以在没有 scRNA-seq 参考的情况下进行反褶积。应用于
四个数据集,包括一个胰腺癌数据集,确定了多种细胞类型和具有不同空间定位的分子标记,
这些标记定义了胰腺癌的进展、异质性和区段化。
审阅人
占炎根
代码链接
www.xzlab.org/software.html
数据集
论文 code availability(很多)
核心总览
its ability to accommodate the spatial correlation structure in cell-type
composition across tissue locations by a conditional autoregressive (CAR)
modeling assumption
enable accurate and robust deconvolution of spatial transcriptomics data across
technologies with different spatial resolutions and in the presence of
mismatched scRNA-seq references.
impute cell-type compositions as well as gene expression levels on new locations
of the tissue
an extension of CARD is also capable of performing reference-free
deconvolution without an scRNA-seq reference.
背景介绍
动机
之前的 RCTD, stereoscope, cell2location 等方法都没有利用上细胞类型分布的空间相关
性。
算法实现
conditional autoregressive-based deconvolution (CARD),基于 a non-negative matrix
factorization model
表示单细胞数据中推断出的参考矩阵(每个元素代表某种基因在某种类型细胞
里的一个细胞中的平均表达水平),G 是基因种类数,K 是细胞类型数。
表示空间矩阵(每个元素代表在某个位置上某种基因的表达水平),N 是空间位
置数。
表示类型矩阵(每个元素代表某个位置上某种类型细胞的数量)。
用一个 non-negative matrix factorization 模型建模: 。
中元素限定为非负值。 是个残差矩阵,每个元素独立服从同样的正态分布
。
为 了 加 上 空 间 相 关 性 , 给 引 入 conditional autoregression (CAR) modeling
assumption: 。
代表 类型细胞在所有位置上的平均数量。
, 代表推断位置 处 的数量时,基于位置 处 的数量的权重。
代表该空间相关性信息的重要程度。
是个残差值。
用基于各对位置点之间的欧几里得距离的 Gaussian kernel function 来构建 ,特点是
善于建模随着距离增大而逐渐衰减的各种相关性模式。
Gaussian kernel : 。 是 欧 几 里 得 距 离 。
effectively characterizes the size of the focal expression patterns,影响很小,值设
为 0.1。
对 逐行标准化: , 。
为了使 和 服从 symmetric condition(即 ),设 , 是
个标量。
根据以上参数设置,基于 Brook's Lemma,可得 。(该推导过程在
论文附录里有详细说明)
是元素全是 1 的 维向量。
是 一 个 positive definite covariance matrix , 其 中
。
MVN 表示 multivariate normal distribution。
以上合起来就是 a factor model with a CAR modeling assumption on the latent
factors to induce spatial correlation across rows of V.
以上的超参数 也是由模型推断出的。
依照之前的研究结论, 从(0.01, 0.1, 0.3, 0.5, 0.7, 0.9, 0.99)这七个值里选,效果最
好的那个值为最终的取值。
设 服从一个 conjugate inverse-gamma distribution, 。
。依照之前的研究结论,设 ,#spots 应该是指空间位置总数。
对于 和 ,"we assigned the noninformative priors that are proportional to
one".
基于如下 log likelihood 来 infer :
Optimization for V:
详细推导过程见公式附录
Optimization for :
Optimization for :
Optimization for :
获得参考矩阵:
基因种类筛选:
选出单细胞数据和空间数据中都表达了的基因
选出表达水平高于平均表达水平 1.25-log-fold 的基因种类
剔除在一类细胞中表达变化性很高的基因种类,该变化性(称为 gene-specific
dispersion)用该类细胞该类基因的表达水平的方差除以均值来体现。剔除掉
gene-specific dispersion 最高的 1%的基因种类。
位置 i 处基因 g 的数量可表达为 。 表示细胞 c。 表示位置 i 类
型 k 的细胞数量(实际上这个 等同于之前说的 )。 就是位置 i 来自细胞类型 k
的基因 g 在一个细胞中的平均表达值。
相对值(基因 g 在位置 i 的数量占比):
设 ,指类型 k 细胞在 i 位置的数量占比,则 。其
中 ,指每个细胞的平均基因总数量。这里的 与之前说的 含义不同!!
是位置 i 处类型 k 的细胞总数除以位置 i 处所有类型的基因总数( )。
进一步处理 : ,第二行新引入的一项含义是
,即位置 i 来自类型 k 细胞的所有种类基因的数量。
则 则代表位置 i 处类型 k 细胞中基因 g 的相对数量占比。
代表位置 i 处类型 k 细胞中一个细胞里的平均基因总数量。
设空间数据中 在 维度上的均值为 ,并且和单细胞数据中的 相等(感觉这个
假设有点太强了,应该考虑一些误差)。
同理假设空间数据中的均值 和单细胞数据中的相等(假设也有点太强了)
剩余29页未读,继续阅读
资源评论
齑殷_
- 粉丝: 1
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功