没有合适的资源?快使用搜索试试~ 我知道了~
PDB数据格式详解-201810161
需积分: 0 0 下载量 113 浏览量
2022-08-03
11:16:14
上传
评论
收藏 877KB PDF 举报
温馨提示
试读
15页
1. HEADER: 分子类, 公布日期, ID 号 2. OBSLTE: 注明此 ID 号已废弃, 改用新 ID 号 3. TITLE: 说明实验方法类型 4
资源推荐
资源详情
资源评论
1
链接地址:http://blog.sciencenet.cn/blog-3196388-1110691.html
[转载]PDB 数据格式详解
已有 1813 次阅读 2018-4-24 17:24 |系统分类:科研笔记|文章来源:转载
PDB(Protein Data Bank)是一种标准文件格式, 其中包含原子的坐标等信息, 提交给 Protein Data Bank at the
Research Collaboratory for Structural Bioinformatics (RCSB) 的结构都使用这种标准格式. 这里整理网上已有的
一些资料, 对 PDB 格式做个简短介绍. 对大多数用户而言, 了解这些内容就够了, 但对那些需要创建 PDB 文件的
用户, 请参考 PDB 格式官方文档.
完整的 PDB 文件提供了非常多的信息, 包括作者, 参考文献以及结构说明, 如二硫键, 螺旋, 片层, 活性位点. 在
使用 PDB 文件时请记住, 一些建模软件可能不支持那些错误的输入格式.
PDB 格式以文本格式给出信息, 每一行信息称为一个 记录(record). 一个 PDB 文件通常包括很多不同类型的记录,
它们以特定的顺序排列, 用以描述结构.
PDB 文件中的记录类型
一. 标题部分
1. HEADER: 分子类, 公布日期, ID 号
2. OBSLTE: 注明此 ID 号已废弃, 改用新 ID 号
3. TITLE: 说明实验方法类型
4. CAVEAT: 可能的错误警告
5. COMPND: 化合物分子组成
6. SOURCE: 化合物来源
7. KEYWDS: 关键词
8. EXPDTA: 测定结构所用的实验方法
9. AUTHOR: 结构测定者
10. REVDAT: 修订日期及相关内容
11. SPRSDE: 已撤销或更改的相关记录
12. JRNL: 发表坐标的期刊
13. REMARK REMARK 1: 有关文献 REMARK 2: 最大分辨率 REMARK 3: 用到的程序和统计方法. 记述结构优化
的方法和相关统计数据. REMARK 4-999: 其他信息
二. 一级结构
1. DBREF: 其他序列库的有关记录
2. SEQADV: PDB 与其他记录的出入
3. SEQRES: 残基序列
4. MODRES: 对标准残基的修饰
三. 杂因子
1. HET: 非标准残基
2. HETATM: 非标准残基的名称
3. HETSNY: 非标准残基的同义字
2
4. FORMOL: 非标准残基的化学式
四. 二级结构
1. HELIX: 螺旋. 标识螺旋的位置和类型(右手 α 螺旋等), 每个螺旋一条记录.
2. SHEET: 片层. 标识每个片层的位置, 类型(sense, 如反平行等), 相对于模型中每个束的片层(如果存在的
话)中前一束的说明, 每个片层一条记录.
3. TURN: 转角
五. 连接注释
1. SSBOND: 二硫键. 定义半胱氨酸 CYS 残基之间的二硫键
2. LINK: 残基间化学键
3. HYDBND: 氢键
4. SLTBRG: 盐桥
5. CISPEP: 顺式残基
六. 晶胞特征及坐标变换
1. CRYST1: 晶胞参数(NMR 除外). 记述晶胞结构参数(a, b, c, α, β, γ, 空间群)以及 Z 值(单位结构中的聚合链
数).
2. ORIGXn: 直角-PDB 坐标
3. SCALEn: 直角-晶体分数坐标(n=1, 2, 3, NMR 除外). 说明数据中直角坐标向晶体分数坐标的变换因子.
4. MTRIXn: 非晶相对称
5. TVECT: 平移矢量
七. 坐标部分
1. MODEL: 多亚基时显示亚基号 当一个 PDB 文件中包含多个结构时(例: NMR 结构解析), 该记录出现在各个
模型的第一行. MODEL 记录行的第 11-14 列上记入模型序号. 序号从 1 开始顺序记入, 在 11-14 列中从右
起写. 比如说有 30 个模型, 则第 1 至 9 号模型, 该行的 7-13 列空白, 在 14 列上记入 1-9 的数字; 第 10-
30 号模型, 该行的 7-12 列空白, 13-14 列上记入 10-30 的数字.
2. ATOM: 标准残基的原子. 记述标准残基(氨基酸以及核酸)中各原子的原子名称, 残基名称, 直角坐标(单位
埃), 占有率, 温度因子等信息.
3. SIGATM: 标准差
4. ANISOU: 各向异性
5. SIGUIJ: 各种温度因素导致的标准差
6. TER: 残基链的末端. 表示残基链的结束. 在每个聚合链的末端都必须有 TER 记录, 但因序列无序造成的链
中断处不需要该记录. 例如, 一个血红蛋白分子包含四个亚链. 彼此之间并不相连. TER 标识了每条链的结
束, 以防显示时这条链与下一条相连.
7. HETATM: 非标准残基的原子. 记述非标准残基(标准氨基酸以及核酸以外的化合物, 包括抑制剂, 辅因子,
离子, 溶剂)中各原子的原子名称, 残基名称, 直角坐标(单位埃), 占有率, 温度因子等信息. 与 ATOM 记录
的唯一区别在于 HETATM 残基默认情况下不会与其他残基相连. 注意, 水分子也应放在此记录中.
8. ENDMDL: 亚基结束. 与 MODEL 记录成对出现, 记述在各模型的链末端的 TER 记录之后.
八. 连接信息部分
1. CONECT: 原子间的连接信息
3
九. 簿记
1. MASTER: 版权拥有者
2. END: 文件结束. 标志 PDB 文件的结束, 必需记录.
一些记录类型的说明
PDB 文件里面的每个记录都有着严格的格式. 每个记录中的字段, 如标识, 原子名称, 原子序号, 残基名称, 残基
序号等, 不仅要按照严格的顺序书写, 而且每个字段所占的字符串长度, 及其所处的位置都是严格规定好的. 这些
记录中, 通常最关心的是原子记录, 其详细说明可参考 PDB 原子记录官方文档.
一些老的 PDB 文件可能不完全遵循新格式. 对大多数用户而言, 最值得注意的区别在于 ATOM 和 HETATM 记录中
的温度因子字段. 下文的例子中没有使用这些字段. 此外, 有些字段常常留空, 例如, 如当原子没有可替换位置时,
可替位置标识符就会留空.
ATOM 记录
PDB 文件 ATOM 记录
列
数据
格式, 对齐
说明
1-4
ATOM
字符, 左
Record Type 记录类型
7-11
serial
整数, 右
Atom serial number 原子序号.
PDB 文件对分子结构处理为
segment, chain, residue, atom 四个层次(一般并不用到 chain),
因此此数位限定了一个残基中的最大原子数为为 99999
13-16
name
字符, 左
Atom name 原子名称.
原子的元素符号在 13-14 列中右对齐
一般从 14 列开始写, 占四个字符的原子名称才会从 13 列开始写.
如, 铁原子 FE 写在 13-14 列, 而碳原子 C 只写在 14 列.
17
altLoc
字符
Alternate location indicator 可替位置标示符
18-20
resName
字符
Residue name 残基名称
22
chainID
字符
Chain identifier 链标识符
23-26
resSeq
整数, 右
Residue sequence number 残基序列号
27
iCode
字符
Code for insertion of residues 残基插入码
28-30
留空
31-38
x
浮点, 右
Orthogonal coordinates for X in Angstroms 直角 x 坐标(埃)
39-46
y
浮点, 右
Orthogonal coordinates for Y in Angstroms 直角 y 坐标(埃)
47-54
z
浮点, 右
Orthogonal coordinates for Z in Angstroms 直角 z 坐标(埃)
55-60
occupancy
浮点, 右
Occupancy 占有率
61-66
tempFactor
浮点, 右
Temperature factor 温度因子
剩余14页未读,继续阅读
资源评论
啊看看
- 粉丝: 28
- 资源: 323
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功