cd-hit-user-guide.pdf 学习cd-hit新手必备!
cd-hit是非常快速的、是中国人(Weizhong Li)写的,很好用,最大的特点就是快。基本思路是首先对所有序列按照其长度进行排序,然后从最长的序列开始,形成第一个序列类,然后依次对序列进行处理,如果新的序列与已有的序列类的代表序列的相似性在cutoff以上则把该序列加到该序列类中,否则形成新的序列类。 指导学习cd-hit cd-hit是一款由来自加州大学圣地亚哥分校的李伟中(Weizhong Li)实验室开发的快速蛋白质聚类程序。其核心优势在于其超高速度,可比其他聚类程序快上数百倍,例如BLASTCLUST,因此可以处理非常大型的数据库,如非冗余(NR)数据库。 cd-hit的版本迭代中,第一版名为CD-HI,于2001年发布并投入使用;第二版称为CD-HIT,在2002年发布,包含显著改进。自2004年起,cd-hit作为开源项目托管于***。自其发布以来,cd-hit逐渐受到越来越多用户的青睐,其用户基础估计超过数千人,在众多研究和教育机构中得到应用。例如,在UniProt,cd-hit被用于生成UniRef参考数据集;在PDB中,cd-hit被用于处理冗余序列。 cd-hit的基本原理是对所有序列按照长度进行排序,从最长的序列开始,形成第一个序列簇,随后依次对序列进行处理,若新序列与已有的簇代表序列的相似度在用户设定的阈值(cutoff)以上,则将新序列归入该簇;否则,形成新的序列簇。cd-hit的算法流程允许快速识别并剔除冗余的序列,这对于大规模数据集的处理尤为重要。 cd-hit程序具有多个模块,包括cd-hit、cd-hit-2d、cd-hit-est、cd-hit-est-2d等,它们分别用于不同的聚类和比较需求。例如,cd-hit-2d可以比较两个序列集,psi-cd-hit算法是针对结构域的聚类算法。cd-hit还提供了一系列多线程程序,例如cd-hit-para.pl和cd-hit-2d-para.pl,它们支持并行计算,从而进一步提高处理速度。 在具体使用中,用户可通过多种方式使用cd-hit,包括增量聚类、层次聚类等。另外,cd-hit提供了一个在线Web服务器,用户可以直接在网站上提交序列进行聚类处理。这个Web服务器为没有下载和运行cd-hit程序能力的用户提供了一个便捷的使用途径。 除了程序本身,cd-hit还提供了多种辅助工具,如plot_len.pl、clstr_sort.pl、clstr_merge.pl、clstr_renumber.pl、clstr_rev.pl等,这些工具可以帮助用户对聚类结果进行排序、合并、重排以及反转等操作,从而更好地分析和处理聚类数据。 在cd-hit的官方文档中,还包含了一个常见问题解答(FAQ)部分,为用户在使用过程中可能遇到的问题提供了答案。文档末尾列出了相关的参考文献,供用户进一步学习和深入了解cd-hit的算法和应用背景。 cd-hit是一款功能强大且高效的序列聚类分析工具,它不仅在处理速度上有明显优势,而且在处理大规模生物信息数据库时表现出色,是生物信息学研究中不可或缺的工具之一。
剩余19页未读,继续阅读
- 粉丝: 13
- 资源: 13
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助