【蛋白结构数据库】是生物学领域中的重要资源,用于存储和管理生物大分子,尤其是蛋白质的三维结构信息。这些数据主要来源于实验技术,如X射线晶体衍射、核磁共振(NMR)和电子显微镜(EM)。全球最重要的蛋白结构数据库之一是【PDB(Protein Data Bank)】,它最初由Brookhaven实验室于1971年建立,并由RCSB(Research Collaboration for Structural Bioinformatics)负责维护。
PDB数据库包含了大量经过实验验证的生物大分子结构,其中大部分是蛋白质结构,但也包括核酸、多糖以及蛋白质与核酸的复合物结构。截至某个特定日期(具体时间未给出),PDB数据库已收录超过50,000个结构数据。
PDB数据库中的每个结构都有一个唯一的PDB-ID,由四个字母或数字组成,用于唯一标识每个记录。用户可以通过这个ID进行精确查询。PDB提供多种查询方式,包括按PDB-ID、提交数据、作者姓名或结构特性等条件进行检索。例如,要查找PDB-ID为1ADZ的结构,用户可以直接在PDB网站的搜索栏输入ID并进行搜索。
查询结果页面会展示结构的详细信息,包括生物学与化学特性、材料与方法、序列细节、几何形态等。用户还可以通过各种可视化工具,如KiNG、Jmol、WebMol等查看蛋白质的三维结构,或者下载不同格式的文件,包括原始的PDB文件和FASTA序列文件。
此外,PDB数据记录还包含丰富的元信息,如结构的名称、引用的文献、一级和二级结构信息,以及原子坐标等。一级结构指的是蛋白质的氨基酸序列,而二级结构则涉及α螺旋、β折叠等局部构象。在PDB中,序列信息既可以直接表示(explicit sequence),也可以间接表示(implicit sequence)。
除了PDB,还有其他几个重要的蛋白结构数据库,比如【MMDB(Molecular Modeling Database)】,它是NCBI的一个子库,专注于分子建模和模拟的数据;【SCOP(Superfamily Classification of Proteins)】则是一个基于进化关系对蛋白质结构进行分类的数据库;【DSSP(Dynamic Secondary Structure of Proteins)】则提供蛋白质二级结构的计算方法。
在研究蛋白质功能、药物设计、结构生物学等领域,这些数据库是不可或缺的资源,它们使得科研人员能够理解和利用蛋白质的三维结构信息,进一步推动生物医学和药物研发的进展。