没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
以Hom o. sapiensRefSeq作为原始数据库来构建EID (Exon/Intron Database)可以克服GenBank所带来的冗余问题.通过分析RefSeq基因组数据库中每个CDS(Coding Sequence,编码序列),获得构建EID的相关的数据(基因的定义、基因标识符、基因序列、蛋白质标识符、蛋白质序列、外显子和内含子的数量、大孝总数、非翻译区(UTR)内含子、内含子相位、内含子剪切位点模式).结果表明,人类24条染色体(22条常染色体和2条性染色体,共计2870827 355
资源推荐
资源详情
资源评论
2010年 11月
N ov. 2010
华南师 范大学学报 (自然科学版 )
JOURNAL OF SOUTH CH INA NO RM AL UN IVER SITY
( NATURAL SC IENCE ED ITION )
2010年第 4期
N o. 4, 2010
收稿日期: 2010- 04- 06
基金项目: 国家自然科学基金专项项目 /科学部主任基金项目 ( 30940020 ); 国家自然科学基金项目 ( 30470495 )
作者简介: 罗冬梅 ( 1986 ), 女, 湖北荆门 人, 2009 级硕土研 究生, Ema i:l luodongm ei1128@ s ina. com; 金 鹰 ( 1967 ), 男, 辽宁 沈阳人, 副研究
员, 主要研究方向: 细胞生物学和遗传学, Em ai:l Jiny ing2020@ 126. com.
* 通讯作者
文章编号: 1000- 5463( 2010) 04- 0087- 06
人类基因组非冗余 Exon / Intron数据库的构建
罗冬梅
1
, 金 鹰
1*
, 邓小元
1
, 刘 海
2
( 1. 华南师范大学生物光子学研究院, 2. 华南师范大学计算机学院, 广东广州 510631)
摘要: 以 H om o. sap iens R efSeq作为原始数据库来构建 EID ( Exon /Intron D atabase) 可以克服 G enBank所带来的冗余问
题. 通过分析 R efSeq基因组数据库中每个 CD S( Coding Sequence, 编码序列 ), 获得构建 E ID 的相关的数据 ( 基因的定
义、基因标识 符、基因序 列、蛋 白质标 识符、蛋白质 序列、外显 子和内 含子的 数量、大小、总数、非翻 译区 ( UTR ) 内含
子、内含子相位、内含子剪切位点模式 ). 结果表明, 人类 24条染色体 ( 22条常 染色体和 2条性染色体, 共计 2 870 827
355 bps)中含有 32 157个基因标识符 ( gene b locks), 其中 7 398个基因为假基因, 4 014个基因发生了可变剪 切 ( A l
ternative Splic ing, A S), 15 533个基因含有 CD S内含子, 765个基因含有 UTR 内含子, 2 585个基因 不含有内含 子, 其
他的为异常基因 .
关键词: 非冗余外显子 /内 含子数据库; R e fSeq; H om o. sap iens; 编码序列; 非翻译区
中图分类号: Q 34 文献标志码: A
真核细胞的特征就是在编码蛋白的基因中包含
有内含子, 并且这些内含子在 mRNA 的成熟过程中
经特殊的机制被精确地剪切
[ 1- 4]
. 所有已经完成测
序的真核基因组都含有内含子. 不同物种的内含子
密度分布差异很大, 从一个基因组只含有几个内含
子到一个基因就包含数十个内含子
[ 5- 7 ]
. 关于内含
子何时出现, 如何进入基因组进而在真核基因组中
大量传播到目前为止仍然未有定论. 解决这些问题
的办法是: 在 DNA 分子水平上分析含有内含子的基
因序列, 即分析模式生物基因组数据库中的编码序
列 ( CDS)特征域, 通过对内含子特征进行大规模的
统计分析, 来阐述内含子在发生、进化、功能等方面
的规律.
CDS是基因 DNA序列中去除内含子 ( Intron)和
非转录区 (UTR )后剩余的序列部分, 对应于该基因
编码蛋白质的氨基酸序列. CDS位于每个 G enBank
数据记 录 ( Entry ) 中 FEATU RE 域中, 关 键 词为:
CDS, 描述符为: 100. . 200, 描述的是该基因中 100~
200位的核苷酸序列是该基因的外显子. 当某基因
序列中含有内含子时, 该特征域的 关键 词仍 为:
CDS, 描述符为: join ( 100. . 200, 400. . 500, 700. .
1000) 或 jo in ( com plem ent ( 50. . 100, 150. . 300,
500. . 900) ) , 前者代表基因位于正义链 ( presented
sequence), 后者代表基因位于互补链 ( com plem enta
ry strand ); 每 对 数字 ( 如 100. . 200, 400. . 500,
700. . 1000)同样代表了该基因外显子的位置, 而 2
个外显子之间的部分 ( 201. . 399, 501. . 699) 为该基
因的内含子. 当 CDS位于当前序列的互补链上时,
外显子的描述分别为: 900. . 500, 300. . 150, 100. .
50, 而内含子的描述分别是 499. . 301, 149. . 101. 基
于对大量 CDS. . . jo in域的计算机化处理, 将基因组
中所有包含内含子的基因的结构信息保存在 FASTA
格式的文件中, 即构成 Exon / Intron数据库 ( EID ).
G ILBERT 研 究小组对 GenBank ( re lease 84) 中
9 276条记录 ( Entries)的 CDS特征域进行解析, 分别
提取每条 Entry的 Intron /Exon 结构、基因定义、LO
CUS名称和蛋白质序列, 并计算了 Intron的位置、相
位 ( Phase) 以及 Intron /Exon 的数量、大小, 构建了原
始的 Exon /Intron 数 据 库 ( E ID )
[ 8]
. 在此基 础 上,
DEUTSCH
[ 9]
、 SAXONOV
[ 10]
、 FEDOROV
[ 11- 12]
、
SHAO
[ 13]
等也使用了类似的构建数据库的方法, 使
得内含子的研究进入了一个空前繁荣的时期. 但以
解析 GenBank数据库中 CDS特征域来构建 E ID 的
资源评论
weixin_38522253
- 粉丝: 2
- 资源: 878
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功