没有合适的资源?快使用搜索试试~ 我知道了~
FASTA格式序列特征提取方法,初砚硕,王清丽,在生物信息学中,FASTA格式是存储核酸序列或氨基酸序列的常用文本格式,每一个氨基酸或核酸用某个固定字母来表示。DIP数据库、NCBI数
资源推荐
资源详情
资源评论
http://www.paper.edu.cn
- 1 -
中国科技论文在线
FASTA 格式序列特征提取方法
#
初砚硕
1
,王清丽
1
,王墨洋
2
,刘亚秋
1**
基金项目:东北林业大学研究生论文资助项目 ST1P10(基于 SVM 分类器的蛋白质相互作用预测算法研究)
作者简介:初砚硕,(1986-),男,计算机应用技术硕士(东北林业大学信息与计算机工程学院),生物
工程学士(大连理工大学环境与生命学院),计算机应用技术学士(第二学位)(大连理工大学电子与信
息工程学院)。主要研究方向:生物信息学。
通信联系人:刘亚秋,(1971-),男,教授,主要研究方向:信息控制. E-mail: yaqiuliu@126.com
(1. 东北林业大学信息与计算机工程学院,哈尔滨 150040;
2. 东北林业大学盐碱地生物资源环境研究中心,哈尔滨 150040) 5
摘要:在生物信息学中,FASTA 格式是存储核酸序列或氨基酸序列的常用文本格式,每一个
氨基酸或核酸用某个固定字母来表示。DIP 数据库、NCBI 数据库等提供的下载序列均采取
FASTA 格式。当生物研究人员对 Blast 序列比对结果进行逐条分析时,可能需要针对蛋白质
序列中的某功能域或基因序列中的执行特定功能的位点进行分析。本文针对该需求提出一种
适用于大型 FASTA 格式序列文件的算法—压缩索引树统计算法。实验结果显示该算法时间复10
杂度和空间复杂度均满足实用要求。
关键词:压缩索引树;FASTA 格式;生物信息学
中图分类号:R318.04
Method of Feature Representation of FASTA Sequence 15
Chu Yanshuo
1
, Wang Qingli
1
, Wang Moyang
2
, Liu Yaqiu
1
(1. Information and Computer Engeeing College, Northest Forestry University, Harbin 150040;
2. Alkali Soil Natural Environmental Science Center, Northeast Forestry University,
Harbin 150040)
Abstract: In bioinformatics, FASTA format is a text-based format for representing either 20
nucleotide sequences or peptide sequences, in which nucleotides or amino acids are represented
using single-letter codes. For example, DIP, NCBI ect. databases provide the FASTA sequence
files for biologists to download. When biologists analyse the sequence alignment result file of
Blast, probably confront the requirement of statistice about some domains in peptide sequences or
some sites that perform specific functions in gene sequence. In this paper, a fast algorithm capable 25
for the large sequence text file statistics was proposed, named compressed index tree algorithm.
The result of experiments revealed the good performance of compressed index tree algorithm.
Keywords:
compressed index tree; FASTA format; bioinformatics
0 引言 30
FASTA 格式的序列文件采用 26 个英文字母来表示氨基酸或者核酸,有时用“-”表示
缺省的序列,用“*”表示翻译终止。如表 1 所示。对 FASTA 格式序列文件中的序列的统
计是对具有 28 个字母的字符串的统计。
序列文件的第一行由符号“>”起始的任意文字的关于序列的说明,用于对该行之后的
序列的描述。以“>”起始的序列说明行之后一直至下一以“>”起始的序列说明行之间为35
序列本身。
针对 FASTA 格式分析的工具有很多,比较常见的有:matlab 中的生物信息学工具箱,
PexFinder,Blast 序列比对程序等。然而目前这些软件或工具包中未有对 FASTA 序列文件
的序列进行特定长度词条特征分析的功能。生物信息学研究者对蛋白质相互作用
(Protein-Protein Interaction, PPI)预测的研究多采取对氨基酸序列进行二联体或三联体特征编40
码
[1]
,另外,也有研究人员对于特定长度的氨基酸序列的统计进行 PPI 预测研究
[2]
。生物学
资源评论
weixin_38516491
- 粉丝: 6
- 资源: 950
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功