cd-hit-user-guide.pdf学习cd-hit新手必备！

需积分: 31 76 浏览量 2013-12-10 20:34:29 上传评论 1 收藏 315KB PDF 举报

cd-hit是非常快速的、是中国人（Weizhong Li）写的，很好用，最大的特点就是快。基本思路是首先对所有序列按照其长度进行排序，然后从最长的序列开始，形成第一个序列类，然后依次对序列进行处理，如果新的序列与已有的序列类的代表序列的相似性在cutoff以上则把该序列加到该序列类中，否则形成新的序列类。指导学习cd-hit cd-hit是一款由来自加州大学圣地亚哥分校的李伟中（Weizhong Li）实验室开发的快速蛋白质聚类程序。其核心优势在于其超高速度，可比其他聚类程序快上数百倍，例如BLASTCLUST，因此可以处理非常大型的数据库，如非冗余（NR）数据库。 cd-hit的版本迭代中，第一版名为CD-HI，于2001年发布并投入使用；第二版称为CD-HIT，在2002年发布，包含显著改进。自2004年起，cd-hit作为开源项目托管于***。自其发布以来，cd-hit逐渐受到越来越多用户的青睐，其用户基础估计超过数千人，在众多研究和教育机构中得到应用。例如，在UniProt，cd-hit被用于生成UniRef参考数据集；在PDB中，cd-hit被用于处理冗余序列。 cd-hit的基本原理是对所有序列按照长度进行排序，从最长的序列开始，形成第一个序列簇，随后依次对序列进行处理，若新序列与已有的簇代表序列的相似度在用户设定的阈值（cutoff）以上，则将新序列归入该簇；否则，形成新的序列簇。cd-hit的算法流程允许快速识别并剔除冗余的序列，这对于大规模数据集的处理尤为重要。 cd-hit程序具有多个模块，包括cd-hit、cd-hit-2d、cd-hit-est、cd-hit-est-2d等，它们分别用于不同的聚类和比较需求。例如，cd-hit-2d可以比较两个序列集，psi-cd-hit算法是针对结构域的聚类算法。cd-hit还提供了一系列多线程程序，例如cd-hit-para.pl和cd-hit-2d-para.pl，它们支持并行计算，从而进一步提高处理速度。在具体使用中，用户可通过多种方式使用cd-hit，包括增量聚类、层次聚类等。另外，cd-hit提供了一个在线Web服务器，用户可以直接在网站上提交序列进行聚类处理。这个Web服务器为没有下载和运行cd-hit程序能力的用户提供了一个便捷的使用途径。除了程序本身，cd-hit还提供了多种辅助工具，如plot_len.pl、clstr_sort.pl、clstr_merge.pl、clstr_renumber.pl、clstr_rev.pl等，这些工具可以帮助用户对聚类结果进行排序、合并、重排以及反转等操作，从而更好地分析和处理聚类数据。在cd-hit的官方文档中，还包含了一个常见问题解答（FAQ）部分，为用户在使用过程中可能遇到的问题提供了答案。文档末尾列出了相关的参考文献，供用户进一步学习和深入了解cd-hit的算法和应用背景。 cd-hit是一款功能强大且高效的序列聚类分析工具，它不仅在处理速度上有明显优势，而且在处理大规模生物信息数据库时表现出色，是生物信息学研究中不可或缺的工具之一。

资源推荐

资源详情

资源评论

CD-HIT User’s Guide

Last updated: April 5, 2010

http://cd-hit.org

http://bioinformatics.org/cd-hit/

Program developed by Weizhong Li’s lab at UCSD

http://weizhong-lab.ucsd.edu liwz@sdsc.edu

Introduction

!"#$%&' ()*' +,-.-/)001')' 2,+34-/' 506*34,-/.' 2,+.,)78' &94' 7)-/' ):;)/3).4' +<'39-*' 2,+.,)7' -*'

-3*' 603,)#<)*3' *244:8' %3' 5)/'=4' 96/:,4:*' +<' 3-74*' <)*34,' 39)/' +394,' 506*34,-/.' 2,+.,)7*>' <+,'

4?)7204>'@ABC&!ADC&8'&94,4<+,4'-3'5)/'9)/:04';4,1'0),.4':)3)=)*4*>'0-E4'FG8'

&94'H

';4,*-+/'+<'39-*'2,+.,)7>'!"#$%>'()*'26=0-*94:')/:',404)*4:'-/'IJJH8' &94'I

';4,*-+/>'

5)004:' !"#$%&>' ()*' 26=0-*94:'-/'IJJI'(-39'*-./-<-5)/3'-72,+;474/3*8'C-/54'IJJK>' !" #$%&'

9)*'=44/'9+*34:')3'=-+-/<+,7)3-5*8+,.')*')/'+24/'*+6,54'2,+L4538'

C-/54'-3*' ,404)*4>'!"#$%&' 9)*' =44/'.433-/.' 7+,4' )/:'7+,4' 2+260),8'%3 !9)*' )' *-./-<-5)/3'6*4,'

=)*4>' %' 4*3-7)34:' )3' +;4,' *4;4,)0' 39+6*)/:*'6*4,*8'%3'-*'6*4:')3'7)/1',4*4),59')/:'

4:65)3-+/)0'-/*3-363-+/*8'M+,'4?)7204>')3' UniProt>' !"#$%&! -*'6*4:'3+'.4/4,)34'394'UniRef'

,4<4,4/54':)3)'*43*'N9332OPP(((82-,86/-2,+38+,.P:)3)=)*4P"@"4*5,-23-+/8*9370Q8! %3! -*')0*+'

6*4:'-/'PDB!3+'3,4)3',4:6/:)/3'*4R64/54*'N9332OPP,63.4,*8,5*=8+,.P2:=P,4:6/:)/5189370Q8'''

%/' IJJS>' 394' T

'7)L+,'62:)34*'(4,4'26=0-*94:')/:',404)*4:'(-39' )=-0-3-4*' 3+' 24,<+,7'

;),-+6*'L+=*' 0-E4' 506*34,-/.')' 2,+34-/':)3)=)*4>' 506*34,-/.' )'"FBPGFB' :)3)=)*4>'5+72),-/ .'

3(+':)3)=)*4*'N2,+34-/'+,'"FBPGFBQ>'.4/4,)3-/.'2,+34-/'<)7-0-4*>')/:'7)/1'+394,*8'

&94' !"#$%&' (4=' *4,;4,' ()*' -720474/34:' -/' IJJU>' (9-59' )00+(*' 6*4,*' 3+' 506*34,' +,'

5+72),4' *4R64/54*' (-39+63' 6*-/.'5+77)/:'!"#$%&8' &94' *4,;4,' 2,+;-:4*' -/34,)53-;4'

-/34,<)54' )/:' )::-3-+/)0' ;-*6 )0-V)3-+/' 3++0*8' %3' )0*+' 2,+;-:4*' 2,4#5)0560)34:' )/:' ,4.60),01'

62:)34:'*4R64/54'506*34,*'<+,'*4;4,)0'(-:401'6*4:':)3)=)*4*8'

!"#$%&#KWK>' )' *245-)0' ;4,*-+/' +<' !"#$%&' ()*' -720474/34:' -/' IJHJ' 3+' 506*34,' ),3-<-5-)0'

:620-5)34:',4):*'-/'21,+*4R64/5-/.'NKWKQ':)3)8'

!6,,4/301>'!"#$%&'2)5E).4'9)*'7)/1'2,+.,)7*O'5:#9-3>'5:#9-3#I: >'5:#9-3#4*3>'5:#9-3#4*3#I:>'

5:#9-3#2),)>' 5:#9-3#I:#2),)>' 2*-#5:#9-3>' 2*-#5:#9-3#I:>' 5:#9-3#KWK8' %' )0*+' :4;40+24:' *+74'

63-0-31'3++0*>'(,-334/'-/'X4,0>'3+'9402',6/')/:')/)01V4'!"#$%&'L+=*8''

&9-*' 2,+.,)7' -*' *3-00' 6/:4,' )53-;4' :4;40+274/3Y' /4(' <4)36,4*' )/:' /4(' 2,+.,)7*' (-00' =4'

+63'-/'394'<636,48'

剩余19页未读，继续阅读

评论收藏

内容反馈

summerhai

粉丝: 13
资源: 13

cd-hit-user-guide.pdf 学习cd-hit新手必备！

最新资源

cd-hit-user-guide.pdf 学习cd-hit新手必备！

psi-cd-hit脚本

GitHub For Dummies.pdf

vcs user guide 2019

CD-开源

英文原版-Digital Defense A Cybersecurity Primer 1st Edition

USB CDC类入门培训 .pdf

CD系列芯片PDF文档集合

C 语言编缉神经网络工具

DEAP2.1软件

Unreal Engine 4.X By Example

三星9305收索

信号检测，英文版

有用的学习VTK user guide的pdf资料

好学的CDC教程

VB编程资源大全（英文源码 其它）

Beginning iOS AR Game Development：Developing Augmented Reality Apps.epub

Whack-A-Mule:基于 Matlab 的 Whack-A-Mole 游戏，位于海军学院。-matlab开发

Java邮件开发Fundamentals of the JavaMail API

Core_Animation_Programe_Guide（１１章 中英双语）

Using_Asyncio_in_Python_3.rar

解决win7win8win10装4.8-3.5的.Net framework3.5安装失败问题 附带安装文档

MIPS流水CPU设计-HUST 《计算机组成原理》（头歌实验答案）

时序图画图工具-TimeGen3.2安装包

谷歌浏览器axure扩展程序

自己动手画CPU 《计算机组成原理》（头歌实验答案）

MIPS单周期CPU设计(24条指令)(HUST) 《计算机组成原理》（头歌实验答案）

沈阳工程学院 毕业论文 模板 2024年

RISC-V三级时序中断机制实现(HUST) 《计算机组成原理》（头歌实验答案）

最新资源

VB编程资源大全（英文源码其它）

Core_Animation_Programe_Guide（１１章　中英双语）

解决win7win8win10装4.8-3.5的.Net framework3.5安装失败问题附带安装文档

沈阳工程学院毕业论文模板 2024年