FASTA格式序列特征提取方法_氨基酸序列特征提取方法有哪些资源-CSDN文库

178 浏览量 2020-01-03 14:42:25 上传评论 5 收藏 365KB PDF 举报

资源推荐

资源详情

资源评论

http://www.paper.edu.cn

- 1 -

中国科技论文在线

FASTA 格式序列特征提取方法

#

初砚硕

1

，王清丽

1

，王墨洋

2

，刘亚秋

1**

基金项目：东北林业大学研究生论文资助项目 ST1P10（基于 SVM 分类器的蛋白质相互作用预测算法研究）

作者简介：初砚硕，（1986-），男，计算机应用技术硕士（东北林业大学信息与计算机工程学院），生物

工程学士（大连理工大学环境与生命学院），计算机应用技术学士（第二学位）（大连理工大学电子与信

息工程学院）。主要研究方向：生物信息学。

通信联系人：刘亚秋，(1971-)，男，教授，主要研究方向：信息控制. E-mail: yaqiuliu@126.com

（1. 东北林业大学信息与计算机工程学院，哈尔滨 150040；

2. 东北林业大学盐碱地生物资源环境研究中心，哈尔滨 150040） 5

摘要：在生物信息学中，FASTA 格式是存储核酸序列或氨基酸序列的常用文本格式，每一个

氨基酸或核酸用某个固定字母来表示。DIP 数据库、NCBI 数据库等提供的下载序列均采取

FASTA 格式。当生物研究人员对 Blast 序列比对结果进行逐条分析时，可能需要针对蛋白质

序列中的某功能域或基因序列中的执行特定功能的位点进行分析。本文针对该需求提出一种

适用于大型 FASTA 格式序列文件的算法—压缩索引树统计算法。实验结果显示该算法时间复10

杂度和空间复杂度均满足实用要求。

关键词：压缩索引树；FASTA 格式；生物信息学

中图分类号：R318.04

Method of Feature Representation of FASTA Sequence 15

Chu Yanshuo

1

, Wang Qingli

1

, Wang Moyang

2

, Liu Yaqiu

1

(1. Information and Computer Engeeing College, Northest Forestry University, Harbin 150040;

2. Alkali Soil Natural Environmental Science Center, Northeast Forestry University,

Harbin 150040)

Abstract: In bioinformatics, FASTA format is a text-based format for representing either 20

nucleotide sequences or peptide sequences, in which nucleotides or amino acids are represented

using single-letter codes. For example, DIP, NCBI ect. databases provide the FASTA sequence

files for biologists to download. When biologists analyse the sequence alignment result file of

Blast, probably confront the requirement of statistice about some domains in peptide sequences or

some sites that perform specific functions in gene sequence. In this paper, a fast algorithm capable 25

for the large sequence text file statistics was proposed, named compressed index tree algorithm.

The result of experiments revealed the good performance of compressed index tree algorithm.

Keywords:

compressed index tree; FASTA format; bioinformatics

0 引言 30

FASTA 格式的序列文件采用 26 个英文字母来表示氨基酸或者核酸，有时用“-”表示

缺省的序列，用“*”表示翻译终止。如表 1 所示。对 FASTA 格式序列文件中的序列的统

计是对具有 28 个字母的字符串的统计。

序列文件的第一行由符号“>”起始的任意文字的关于序列的说明，用于对该行之后的

序列的描述。以“>”起始的序列说明行之后一直至下一以“>”起始的序列说明行之间为35

序列本身。

针对 FASTA 格式分析的工具有很多，比较常见的有：matlab 中的生物信息学工具箱，

PexFinder，Blast 序列比对程序等。然而目前这些软件或工具包中未有对 FASTA 序列文件

的序列进行特定长度词条特征分析的功能。生物信息学研究者对蛋白质相互作用

(Protein-Protein Interaction, PPI)预测的研究多采取对氨基酸序列进行二联体或三联体特征编40

码

[1]

，另外，也有研究人员对于特定长度的氨基酸序列的统计进行 PPI 预测研究

[2]

。生物学

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余7页未读，立即下载

内容反馈

weixin_38516491

粉丝: 6
资源: 950

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip