【NCBI站点与GenBank详解】
NCBI,全称为美国国家生物技术信息中心(National Center for Biotechnology Information),是一个提供生物信息学资源的国际知名机构。它的网站是生物科研人员获取和分享数据的重要平台,涵盖了从基因组学到蛋白质结构等多个领域。
**GenBank**是NCBI维护的一个庞大数据库,存储了超过13亿个碱基的核苷酸序列,这些序列来自超过100,000种不同的生物体。GenBank的独特之处在于,每条记录都包含了编码区(CDS)的注释,能够提供氨基酸的翻译信息。此外,GenBank是国际核苷酸序列数据库合作组织的一部分,与欧洲分子生物学实验室(EMBL)和日本DNA数据库(DDBJ)共享数据,确保全球科学家都能访问到最新的序列信息。
**访问GenBank**主要通过Entrez Nucleotides系统,用户可以使用序列号、作者、物种名、基因或蛋白质名称等多种关键词进行检索。BLAST(Basic Local Alignment Search Tool)是另一个强大的工具,可以在GenBank和其他数据库中进行序列相似性搜索。除了在线访问,用户还可以通过FTP下载整个GenBank数据库或每日更新的数据。
**增长统计**反映了GenBank的持续发展,定期发布的公布通知包含各分类的统计信息,物种统计,以及GenBank的增长情况。公布通知还提供了关于GenBank的变化、引用和遗传密码的细节,确保正确翻译编码序列。
**提交数据到GenBank**使用Sequin软件,这是一个适用于单个或大量序列提交的工具,特别适合长序列、完整基因组、比对和变异研究。在提交前,建议使用VecScreen去除载体序列。GenBank接受不同类型的数据,如ESTs(表达序列标签)、GSSs(基因组调查序列)、HTGs(高通量基因组序列)和STSs(序列标签位点)。其中,SNPs(单核苷酸多态性)数据应提交到dbSNP数据库。
**国际核苷酸序列数据库合作组织**确保了GenBank、DDBJ和EMBL之间的数据同步,用户可以使用相同的accession number在任一数据库中查找序列,获取相同的数据和注解。
**文件格式**包括GenBank普通文件格式、ASN.1(摘要句法记号1,ISO数据表示格式)和FASTA格式。GenBank记录样本和公布通知提供了格式的详细描述,而FASTA格式则简化为仅包含序列数据,常用于BLAST搜索。
NCBI及其GenBank数据库是生物科学领域的宝贵资源,为全球研究者提供了获取、分析和分享生物序列数据的便利途径。其丰富的功能和多样化的数据类型,使其成为生命科学研究不可或缺的一部分。