目 前 , 国 内 对 于 单 细 胞 测 序 分 析 的 教 程 五 花 八 门 , 百 花 齐 放 ,
一 个 合 适 且 准 确 的 p i p e l i n e 对 于 分 析 是 很 有 价 值 的 。2 0 2 3 年
在 N a t R e v G e n e t 上 发 表 的 一 篇 论 文 “ B e s t p r a c t i c e s f o r
s i n g l e - c e l l a n a l y s i s a c r o s s m o d a l i t i e s ” , 详 细 介 绍 了 单 细
胞 最 佳 实 践 的 流 程 。但 是 ,其 在 国 内 的 推 广 有 两 个 不 足 : ( 一 )
全 英 文 教 程 ; ( 二 ) R 语 言 与 P y t h o n 混 合 。 二 者 限 制 了 其 在
国 内 的 推 广 , 故 笔 者 在 原 教 程 的 基 础 上 , 结 合 自 身 的 单 细 胞
测 序 分 析 经 验 。 将 其 译 至 中 文 版 , 并 且 只 使 用 P y t h o n 完 成 所
有 分 析 。 环 境 参 考 此 前 安 装 的 o m i c v e r s e 环 境 。
#
可以使用
conda
进行安装
conda install omicverse -c conda-forge
#
安装完后可以使用
pip
进行更新
pip install -U omicverse -i https://pypi.tuna.tsinghua.edu.cn/simple
本 章 将 从 另 一 个 角 度 去 认 识 单 细 胞 测 序 的 数 据 。
� 1)由于测序深度的限制,受限于基因自身的表达量,我们会发现单细胞测序数
据是一个有很多“0”值的矩阵,我们称这种现象为“drop-out”,这些零一方面可能是测序
深度不够导致基因没有捕获到,另一方面可能是这些基因本身没有表达。
� 2)由于细胞状态的不同,单细胞测序数据中将包含一些即将死亡的细胞,这些
细胞自身的生物学意义还有待探究,但通常被认为会引入不必要的生物学误差。
� 3)由于测序技术的原因,可能会出现一个孔内包含了两个细胞,这种情况下,
我们测得的细胞的基因表达量将会异常地高。正常细胞的基因表达量通常在 3000-4000
左右。
以 上 原 因 , 使 得 我 们 所 获 得 的 单 细 胞 测 序 数 据 不 是 完 美 的 ,
我 们 需 要 对 数 据 进 行 质 量 控 制 , 避 免 影 响 我 们 发 现 有 意 义 的
生 物 学 结 果 。但 是 不 同 的 预 处 理 方 法 可 能 会 带 来 不 同 的 效 果 ,
单 细 胞 测 序 分 析 技 术 的 快 速 发 展 使 得 我 们 有 大 量 的 工 具 可 以
对 单 细 胞 测 序 数 据 进 行 质 量 控 制 。 在 本 小 节 中 , 我 们 将 详 细
描 述 质 量 控 制 的 最 佳 步 骤 。
1. 环境配置与数据
我 们 将 使 用 在 N e u r I P S 2 0 2 1 会 议 上 [ L u e c k e n 等 人 , 2 0 2 1 ] 的
一 个 1 0 x M u l t i o m e 数 据 集 。 该 数 据 集 捕 获 了 来 自 1 2 名 健 康
人 类 供 体 的 骨 髓 单 核 细 胞 的 单 细 胞 多 组 学 数 据 , 该 数 据 集 捕
获 了 在 四 个 不 同 地 点 测 量 的 1 2 名 健 康 人 类 捐 赠 者 的 骨 髓 单
核 细 胞 的 单 细 胞 多 组 学 数 据 , 以 获 得 嵌 套 批 次 效 应 。 在 本 教
程 中 , 我 们 将 使 用 一 批 上 述 数 据 集 ( 供 体 8 的 样 本 4 ) 来
展 示 s c R N A - s e q 数 据 预 处 理 的 最 佳 实 践 。
先 导 入 环 境