低深度全基因组测序(Low-pass genome sequencing)是基因组学中的一项关键技术,主要用于检测基因组中的拷贝数变异(Copy Number Variations,简称CNVs)。拷贝数变异是染色体结构变异的一种类型,指的是染色体上大片段DNA的拷贝数增加或减少。这些变异在基因表达、疾病易感性以及表型变异等方面都有重要作用。相较于传统的比较基因组杂交技术(Array-CGH)和染色体微阵列分析技术(Chromosomal Microarray Analysis),低深度全基因组测序因成本较低、操作简便和快速等特点,逐渐成为临床遗传学中一种可行的替代方案。
低深度全基因组测序中的测序深度与读长是影响实验结果可靠性的两个重要因素。测序深度指的是测序过程中每个核苷酸被读取的平均次数,即测序覆盖度。在进行低深度测序时,与测序数据量的关系通常是至少需要15Mreads(百万读数),这一数值是基于理论模拟以及在独特读数(unique reads)至少达到6M的基础上得出的。而读长(Read Length)指的是测序读段的长度,单端50bp的读长对于低深度全基因组测序而言是常用的。不同的研究可能有不同的要求,但通常认为50bp的读长可以提供足够的分辨率来检测大多数类型的CNVs。
在检测算法方面,低深度全基因组测序的算法通常会设置划动窗口(bin),这个窗口的大小一般设置为50kb,步长(步进的间隔)设置为5kb,而解析度(resolution)则是100K。这些参数的选择能够平衡检测的灵敏度和特异性,以适应不同的应用场景和需求。
拷贝数阈值的设置是判定CNVs的关键环节。在理论上,对于Duplication(三倍体)的log2值为1.5,这意味着Duplication的阈值应该设置为log2[1.5]=0.58;而对于Deletion(单倍体缺失),log2值为0.5,这意味着Deletion的阈值应设置为log2[0.5]=1.0。实际应用中,不同的研究和文献中对这个阈值的设定有所不同。例如,在贝瑞基因(BerryGenomics)发表的文章和dragen工具中,这个值设为1.2和0.8;在华大基因(BGI)的文献中,设定为1.15和0.85;为了增加敏感性,华大基因的其他文献里提到设置为1.1和0.9。这些阈值的选择会直接影响到CNV检测结果的准确性和可信度。
华大基因分享的分析代码为低深度全基因组测序提供了重要的技术支持。这些代码可以在公共代码托管平台如SourceForge上找到,为研究人员提供了一种方便的方法来实现对数据的进一步分析。通过这些公开的分析工具,研究人员可以更快速地进行CNV分析,而无需从头开始编写代码,从而加速了科研成果的产出和应用。
低深度全基因组测序作为一种高效的CNV检测技术,其关键参数的合理设定对于提高检测的准确性和重复性至关重要。通过对测序深度、读长、窗口大小、步长、解析度以及拷贝数阈值的优化,结合华大基因等提供的分析代码,可以在临床遗传学研究中更有效地进行CNV检测,为疾病的诊断与研究提供重要的基因组信息。