【免费】guo-cheng#Learning-notes-2021#从头学习转录组之FastQC数据质控报告的详细解读1资源-CSDN文库

需积分: 0 183 浏览量 2022-07-25 14:32:48 上传评论收藏 7KB MD 举报

资源推荐

资源详情

资源评论

# 从头学习转录组之**FastQC数据质控报告的详细解读** 接下来将会更新几期转录组分析的内容，包括无参转录组，有参转录组。感兴趣可以关注一下。 1. **Basic Statistics（基本信息）** ![Basic Statistics](https://cdn.liguocheng.top//uPic/geBOmr.png) - Encoding: 测序平台编号，现在Sanger/ Illumina 1.8以上都是Phred 33编码 - Total sequences: reads数量 - Sequence length: 测序长度 - **%GC: GC含量：** 需要**重点关注**，可以帮助区别物种以及污染等，动物40%-60%都可以。 **2. Per base sequence quility**：每个测序read上各碱基质量 ![Per base sequence quility**](https://cdn.liguocheng.top//uPic/E347Ae.png) - 横轴：测序序列的1-40个碱基；正常为100，200或者250bp - 纵轴：质量得分，score = -10 * log10（error），例如错误率error为1%，那么算出的score就是20 - **箱线图boxplot**：对每一个碱基的质量的统计。箱子上面的须（up bar）为90%分位数，下面的须（down bar）为10%分位数，箱子中的红线为中位数即50%分位数，箱子顶（upside）为75%分位数，箱子低（downside）为25%分位数。这个boxplot的意义：一是看数据是否具有对称性；二是看数据分布差异，这里主要利用了第二点。bar的跨度越大，说明数据越不稳定。 - 蓝色的线将各个碱基的质量平均值连接起来 - **解释一下：图中蓝线的走势为何先高后低？**因为目前采用的边合成边测序使用的是化学方法促使链由5'向3'延伸，也就是利用了DNA聚合酶。刚开始测序，合成反应还不是很稳定，但是酶的质量还很好，所以会在高质量区域内有一定的波动（这里的1-30bp），后来稳定了，但是随着时间的推移，酶的活力逐渐下降，特异性也变差，所以越往后出错几率越大。 - 一般能用的数据都要求至少Q20，也就是下四分位（10%分位数）的质量值要大于20。 - 二代测序，最好是达到**Q20的碱基要在95%以上（最差不低于90%）�

点击阅读更多

评论收藏

内容反馈