【免费】PDB数据格式详解-201810161资源-CSDN文库

需积分: 0 153 浏览量更新于2022-08-03 收藏 877KB PDF 举报

PDB（Protein Data Bank）数据格式是一种标准的文件格式，用于存储蛋白质、核酸以及其他生物大分子的三维结构信息。这种格式由RCSB（Research Collaboratory for Structural Bioinformatics）维护，是科研人员进行结构生物学研究的重要工具。下面将详细解释PDB文件中的主要记录类型及其内容。 1. **标题部分**： - **HEADER**：记录分子的类别、发布日期和ID号，用于标识结构的基本信息。 - **OBSLTE**：当旧的ID号被新的ID号取代时，此记录会注明旧ID已被废弃。 - **TITLE**：提供实验方法的简要说明，帮助理解数据是如何获取的。 - **CAVEAT**：可能会包含对数据错误或不足的警告。 - **COMPND**：描述化合物的分子组成，包括其成分和修饰。 - **SOURCE**：说明化合物的来源，如生物体或人工合成。 - **KEYWDS**：关键词用于搜索和分类结构。 - **EXPDTA**：记录实验技术，如X射线晶体学或核磁共振。 - **AUTHOR**：列出结构的测定者。 - **REVDAT**：修订日期及相关细节，记录结构数据的更新。 - **SPRSDE**：关于已撤销或更改记录的信息。 - **JRNL**：记录结构发表的期刊详情。 - **REMARK**：提供额外的注释和信息，如文献引用、结构参数等。 2. **一级结构**： - **DBREF**：链接到其他序列数据库的记录。 - **SEQADV**：PDB与其他记录的比较。 - **SEQRES**：列出分子的氨基酸或核苷酸序列。 - **MODRES**：描述对标准残基的修改或替代。 3. **杂因子**： - **HET**：非标准残基的标识。 - **HETATM**：非标准残基的原子信息。 - **HETSYN**：非标准残基的别名。 - **FORMUL**：非标准残基的化学式。 4. **二级结构**： - **HELIX**：定义螺旋的位置、类型和长度。 - **SHEET**：描述片层结构，包括片层的方向和连接。 - **TURN**：记录转角结构。 5. **连接注释**： - **SSBOND**：记录二硫键的连接。 - **LINK**：表示残基间的化学键。 - **HYDBND**：氢键信息。 - **SLTBRG**：盐桥。 - **CISPEP**：顺式连接的氨基酸。 6. **晶胞特征及坐标变换**： - **CRYST1**：提供晶体结构参数，如晶胞尺寸和空间群。 - **ORIGXn**：直角PDB坐标系统的原点。 - **SCALEn**：描述如何将直角坐标转换为晶体分数坐标。 - **MTRIXn**：非晶体对称操作矩阵。 - **TVECT**：平移向量。 7. **坐标部分**： - **MODEL**：在多模型文件中标识不同的结构模型。 - **ATOM**：描述标准残基的原子坐标、占有率和温度因子。 - **SIGATM**：原子坐标的标准偏差。 - **ANISOU**：各向异性热运动信息。 - **SIGUIJ**：由各种温度因素导致的坐标标准差。 - **TER**：标记残基链的结束。 PDB文件格式的详细信息有助于研究人员理解和处理结构数据，它不仅包含了分子的几何信息，还包括了实验方法、作者信息和潜在的结构问题。对于分析和模拟生物大分子结构的研究工作，掌握PDB文件格式至关重要。

链接地址：http://blog.sciencenet.cn/blog-3196388-1110691.html

[转载]PDB 数据格式详解

已有 1813 次阅读 2018-4-24 17:24 |系统分类:科研笔记|文章来源:转载

PDB(Protein Data Bank)是一种标准文件格式, 其中包含原子的坐标等信息, 提交给 Protein Data Bank at the

Research Collaboratory for Structural Bioinformatics (RCSB) 的结构都使用这种标准格式. 这里整理网上已有的

一些资料, 对 PDB 格式做个简短介绍. 对大多数用户而言, 了解这些内容就够了, 但对那些需要创建 PDB 文件的

用户, 请参考 PDB 格式官方文档.

完整的 PDB 文件提供了非常多的信息, 包括作者, 参考文献以及结构说明, 如二硫键, 螺旋, 片层, 活性位点. 在

使用 PDB 文件时请记住, 一些建模软件可能不支持那些错误的输入格式.

PDB 格式以文本格式给出信息, 每一行信息称为一个记录(record). 一个 PDB 文件通常包括很多不同类型的记录,

它们以特定的顺序排列, 用以描述结构.

PDB 文件中的记录类型

一. 标题部分

1. HEADER: 分子类, 公布日期, ID 号

2. OBSLTE: 注明此 ID 号已废弃, 改用新 ID 号

3. TITLE: 说明实验方法类型

4. CAVEAT: 可能的错误警告

5. COMPND: 化合物分子组成

6. SOURCE: 化合物来源

7. KEYWDS: 关键词

8. EXPDTA: 测定结构所用的实验方法

9. AUTHOR: 结构测定者

10. REVDAT: 修订日期及相关内容

11. SPRSDE: 已撤销或更改的相关记录

12. JRNL: 发表坐标的期刊

13. REMARK REMARK 1: 有关文献 REMARK 2: 最大分辨率 REMARK 3: 用到的程序和统计方法. 记述结构优化

的方法和相关统计数据. REMARK 4-999: 其他信息

二. 一级结构

1. DBREF: 其他序列库的有关记录

2. SEQADV: PDB 与其他记录的出入

3. SEQRES: 残基序列

4. MODRES: 对标准残基的修饰

三. 杂因子

1. HET: 非标准残基

2. HETATM: 非标准残基的名称

3. HETSNY: 非标准残基的同义字

4. FORMOL: 非标准残基的化学式

四. 二级结构

1. HELIX: 螺旋. 标识螺旋的位置和类型(右手 α 螺旋等), 每个螺旋一条记录.

2. SHEET: 片层. 标识每个片层的位置, 类型(sense, 如反平行等), 相对于模型中每个束的片层(如果存在的

话)中前一束的说明, 每个片层一条记录.

3. TURN: 转角

五. 连接注释

1. SSBOND: 二硫键. 定义半胱氨酸 CYS 残基之间的二硫键

2. LINK: 残基间化学键

3. HYDBND: 氢键

4. SLTBRG: 盐桥

5. CISPEP: 顺式残基

六. 晶胞特征及坐标变换

1. CRYST1: 晶胞参数(NMR 除外). 记述晶胞结构参数(a, b, c, α, β, γ, 空间群)以及 Z 值(单位结构中的聚合链

数).

2. ORIGXn: 直角-PDB 坐标

3. SCALEn: 直角-晶体分数坐标(n=1, 2, 3, NMR 除外). 说明数据中直角坐标向晶体分数坐标的变换因子.

4. MTRIXn: 非晶相对称

5. TVECT: 平移矢量

七. 坐标部分

1. MODEL: 多亚基时显示亚基号当一个 PDB 文件中包含多个结构时(例: NMR 结构解析), 该记录出现在各个

模型的第一行. MODEL 记录行的第 11-14 列上记入模型序号. 序号从 1 开始顺序记入, 在 11-14 列中从右

起写. 比如说有 30 个模型, 则第 1 至 9 号模型, 该行的 7-13 列空白, 在 14 列上记入 1-9 的数字; 第 10-

30 号模型, 该行的 7-12 列空白, 13-14 列上记入 10-30 的数字.

2. ATOM: 标准残基的原子. 记述标准残基(氨基酸以及核酸)中各原子的原子名称, 残基名称, 直角坐标(单位

埃), 占有率, 温度因子等信息.

3. SIGATM: 标准差

4. ANISOU: 各向异性

5. SIGUIJ: 各种温度因素导致的标准差

6. TER: 残基链的末端. 表示残基链的结束. 在每个聚合链的末端都必须有 TER 记录, 但因序列无序造成的链

中断处不需要该记录. 例如, 一个血红蛋白分子包含四个亚链. 彼此之间并不相连. TER 标识了每条链的结

束, 以防显示时这条链与下一条相连.

7. HETATM: 非标准残基的原子. 记述非标准残基(标准氨基酸以及核酸以外的化合物, 包括抑制剂, 辅因子,

离子, 溶剂)中各原子的原子名称, 残基名称, 直角坐标(单位埃), 占有率, 温度因子等信息. 与 ATOM 记录

的唯一区别在于 HETATM 残基默认情况下不会与其他残基相连. 注意, 水分子也应放在此记录中.

8. ENDMDL: 亚基结束. 与 MODEL 记录成对出现, 记述在各模型的链末端的 TER 记录之后.

八. 连接信息部分

1. CONECT: 原子间的连接信息

九. 簿记

1. MASTER: 版权拥有者

2. END: 文件结束. 标志 PDB 文件的结束, 必需记录.

一些记录类型的说明

PDB 文件里面的每个记录都有着严格的格式. 每个记录中的字段, 如标识, 原子名称, 原子序号, 残基名称, 残基

序号等, 不仅要按照严格的顺序书写, 而且每个字段所占的字符串长度, 及其所处的位置都是严格规定好的. 这些

记录中, 通常最关心的是原子记录, 其详细说明可参考 PDB 原子记录官方文档.

一些老的 PDB 文件可能不完全遵循新格式. 对大多数用户而言, 最值得注意的区别在于 ATOM 和 HETATM 记录中

的温度因子字段. 下文的例子中没有使用这些字段. 此外, 有些字段常常留空, 例如, 如当原子没有可替换位置时,

可替位置标识符就会留空.

ATOM 记录

PDB 文件 ATOM 记录

列

数据

格式, 对齐

说明

1-4

ATOM

字符, 左

Record Type 记录类型

7-11

serial

整数, 右

Atom serial number 原子序号.

PDB 文件对分子结构处理为

segment, chain, residue, atom 四个层次(一般并不用到 chain),

因此此数位限定了一个残基中的最大原子数为为 99999

13-16

name

字符, 左

Atom name 原子名称.

原子的元素符号在 13-14 列中右对齐

一般从 14 列开始写, 占四个字符的原子名称才会从 13 列开始写.

如, 铁原子 FE 写在 13-14 列, 而碳原子 C 只写在 14 列.

altLoc

字符

Alternate location indicator 可替位置标示符

18-20

resName

字符

Residue name 残基名称

chainID

字符

Chain identifier 链标识符

23-26

resSeq

整数, 右

Residue sequence number 残基序列号

iCode

字符

Code for insertion of residues 残基插入码

28-30

留空

31-38

浮点, 右

Orthogonal coordinates for X in Angstroms 直角 x 坐标(埃)

39-46

浮点, 右

Orthogonal coordinates for Y in Angstroms 直角 y 坐标(埃)

47-54

浮点, 右

Orthogonal coordinates for Z in Angstroms 直角 z 坐标(埃)

55-60

occupancy

浮点, 右

Occupancy 占有率

61-66

tempFactor

浮点, 右

Temperature factor 温度因子

剩余14页未读，继续阅读

资源推荐

资源评论

啊看看

粉丝: 37
资源: 323

PDB数据格式详解-201810161

PDB格式详解

pdb文件格式-最新版

2020_Oracle19c数据迁移图文详解.docx

SWISS-pdb 说明书

ORACLE_12C新特性-CDB与PDB.pdf

mol-pdb-viewer:用于pdb文件的WebGl查看器

microsoft pdb.rar

.NET 文件格式详解文档

Windows PE 格式详解.zip

oracle 12c创建可插拔数据库（PDB）与用户详解

Oracle 12c启动和关闭新特性PDB

python数据分析与展示

Oracle12c CDB架构图

2014 Discovery Studio 4.0基本操作.pdf

autodock中文教程

Python库 | rcsb.exdb-0.48.tar.gz

gmx常用结构文件数据精度问题1

oracle 12c入门文档

Multitenant New Features In oracle 18c 多租户

Python库 | wwpdb.io-0.14.1-py2.py3-none-any.whl

PyPI 官网下载 | rcsb.utils.dictionary-0.53.tar.gz

cpp-PartioC库轻松地读写操纵常见的粒子动画格式比如PDBBGEOPTC

jsoncpp使用详解及示例

PE文件头详解

AutoDock分子对接指导手册

Oracle Database 12c: 新功能- 面向管理员 学生指南– 第 1 卷

PyPI 官网下载 | rcsb.db-1.683.tar.gz

IZO-063-2020版本.docx

最新资源

Oracle Database 12c: 新功能- 面向管理员学生指南– 第 1 卷