没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
生物物理学报 第二十四卷 第三期 二
八年六月
ACTABIOPHYSICASINICA Vol.24No.3 Jun.2008
收稿日期:2007-12-13
基金项目
:
国家自然科学基金资助项目
(
60775012,60634030),
西北工业大学科技创新项目
(
KC02)
通讯作者
:
张绍武,电话
:
(029)88494352,
E-mail:zhangsw@nwpu.edu.cn
0
引 言
蛋白质要参与正常的生命活动,必须处于特定
的亚细胞区域内(如细胞核、线粒体、细胞质等)
才能发挥特定的功能。我们可通过实验确定蛋白质
在细胞内的位置,但实验方法不但费时
、耗财
, 其
难度也较大。另外随着人类基因组计划的顺利实
施,蛋白质数据库中的蛋白质序列数目飞速增长
,
因而探索利用理论及计算方法预测蛋白质的亚细胞
定位越来越重要。
自从
Chou 提出伪氨基酸组成成
分概念以来
[1]
,多种伪氨基酸组成成分特征方法被
提出来用于蛋白质亚细胞定位预测
[2~10]
,取得了较
好的效果。伪氨基酸组成成分特征提取方法实质上
就是用一个特征向量表示蛋白质样本
,而不丢失序
列顺序信息。目前利用伪氨基酸组成成分预测蛋白
质亚细胞定位都是基于完整的蛋白质序列
,文献
[11,12]基于分段氨基酸组成成分分别对蛋白质同
源寡聚体和膜蛋白进行了分类研究,
研究结果表明
蛋白质局部子序列包含较多的蛋白质属性信息。但
分段氨基酸组成成分仅考虑局部子序列的氨基酸统
计特性,即局部子序列中氨基酸出现的频率
,而未
考虑局部子序列氨基酸顺序影响。
本文提出一种分段伪氨基酸组成成分特征提取
方法表示蛋白质序列,采用支持向量机算法和 “一
对一”分类策略
,对
Chou 构建的两个数据集
[1,2]
进
行蛋白质亚细胞定位预测研究。
1
数据集和预测方法
1.1
数据集
采用两个数据集来评价本文算法的预测能力。
第一个数据集
(
C2191) 由 Chou 构建
[1]
, 包含
2191 条蛋白质序列,分别属于 12 种亚细胞定位区
基于分段伪氨基酸组成成分特征提取方法
预测蛋白质亚细胞定位
杨会芳,程咏梅,张绍武,潘泉
(西北工业大学自动化学院,西安 710072)
摘要:蛋白质的亚细胞定位与蛋白质的功能密切相关,其定位预测有助于人们了解蛋白质功能
。文章提出一
种分段伪氨基酸组成成分特征提取方法,采用支持向量机算法对 Chou 构建的两个蛋白质亚细胞定位数据集
(C2129,CS2423)进行了分类研究,并采用总分类精度
Q
3
、内容平衡精度指数
Q
9
等参数评估预测分类系统性能
。
预测结果表明,基于分段伪氨基酸组成成分特征提取方法的预测性能,优于基于完整蛋白质序列的伪氨基酸组成
成分特征提取方法。例如,基于分段矩描述子伪氨基酸组成成分特征提取方法
,数据集
C2129 的
Q
3
和
Q
9
分别为
84.7% 和 60.8%,比基于完整蛋白质序列的矩描述子伪氨基酸组成成分特征提取方法分别提高 1.8 和 2.2 个百分
点,且
Q
3
比现有 Xiao 等人的方法提高了 9.1 个百分点。基于分段伪氨基酸组成成分特征提取方法构成的特征向
量不仅包含残基之间的位置信息,而且还包含蛋白质子序列之间的耦合信息,另外蛋白质分段子序列可能和蛋白
质的功能域有一定的联系,从而使这一方法能够有效地预测蛋白质亚细胞定位。
关键词:分段伪氨基酸组成成分;支持向量机;特征提取;亚细胞定位
中图分类号:Q617
资源评论
tslnet
- 粉丝: 0
- 资源: 6
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功