人类基因组非冗余Exon/Intron数据库的构建(2010年)资源-CSDN文库

自然科学

论文

需积分: 9 196 浏览量 2021-05-07 14:56:25 上传评论收藏 186KB PDF 举报

资源推荐

资源详情

资源评论

2010年 11月

N ov. 2010

          

华南师范大学学报 (自然科学版 )

JOURNAL OF SOUTH CH INA NO RM AL UN IVER SITY

( NATURAL SC IENCE ED ITION )

          

2010年第 4期

 N o. 4, 2010

收稿日期: 2010- 04- 06

基金项目: 国家自然科学基金专项项目 /科学部主任基金项目 ( 30940020 ); 国家自然科学基金项目 ( 30470495 )

作者简介: 罗冬梅 ( 1986 ), 女, 湖北荆门人, 2009 级硕土研究生, Ema i:l luodongm ei1128@ s ina. com; 金鹰 ( 1967 ), 男, 辽宁沈阳人, 副研究

员, 主要研究方向: 细胞生物学和遗传学, Em ai:l Jiny ing2020@ 126. com.

* 通讯作者

文章编号: 1000- 5463( 2010) 04- 0087- 06

人类基因组非冗余 Exon / Intron数据库的构建

罗冬梅

, 金  鹰

, 邓小元

, 刘  海

( 1. 华南师范大学生物光子学研究院, 2. 华南师范大学计算机学院, 广东广州 510631)

摘要: 以 H om o. sap iens R efSeq作为原始数据库来构建 EID ( Exon /Intron D atabase) 可以克服 G enBank所带来的冗余问

题. 通过分析 R efSeq基因组数据库中每个 CD S( Coding Sequence, 编码序列 ), 获得构建 E ID 的相关的数据 ( 基因的定

义、基因标识符、基因序列、蛋白质标识符、蛋白质序列、外显子和内含子的数量、大小、总数、非翻译区 ( UTR ) 内含

子、内含子相位、内含子剪切位点模式 ). 结果表明, 人类 24条染色体 ( 22条常染色体和 2条性染色体, 共计 2 870 827

355 bps)中含有 32 157个基因标识符 ( gene b locks), 其中 7 398个基因为假基因, 4 014个基因发生了可变剪切 ( A l

ternative Splic ing, A S), 15 533个基因含有 CD S内含子, 765个基因含有 UTR 内含子, 2 585个基因不含有内含子, 其

他的为异常基因 .

关键词: 非冗余外显子 /内含子数据库; R e fSeq; H om o. sap iens; 编码序列; 非翻译区

中图分类号: Q 34   文献标志码: A

  真核细胞的特征就是在编码蛋白的基因中包含

有内含子, 并且这些内含子在 mRNA 的成熟过程中

经特殊的机制被精确地剪切

[ 1- 4]

. 所有已经完成测

序的真核基因组都含有内含子. 不同物种的内含子

密度分布差异很大, 从一个基因组只含有几个内含

子到一个基因就包含数十个内含子

[ 5- 7 ]

. 关于内含

子何时出现, 如何进入基因组进而在真核基因组中

大量传播到目前为止仍然未有定论. 解决这些问题

的办法是: 在 DNA 分子水平上分析含有内含子的基

因序列, 即分析模式生物基因组数据库中的编码序

列 ( CDS)特征域, 通过对内含子特征进行大规模的

统计分析, 来阐述内含子在发生、进化、功能等方面

的规律.

CDS是基因 DNA序列中去除内含子 ( Intron)和

非转录区 (UTR )后剩余的序列部分, 对应于该基因

编码蛋白质的氨基酸序列. CDS位于每个 G enBank

数据记录 ( Entry ) 中 FEATU RE 域中, 关键词为:

CDS, 描述符为: 100. . 200, 描述的是该基因中 100~

200位的核苷酸序列是该基因的外显子. 当某基因

序列中含有内含子时, 该特征域的关键词仍为:

CDS, 描述符为: join ( 100. . 200, 400. . 500, 700. .

1000) 或 jo in ( com plem ent ( 50. . 100, 150. . 300,

500. . 900) ) , 前者代表基因位于正义链 ( presented

sequence), 后者代表基因位于互补链 ( com plem enta

ry strand ); 每对数字 ( 如 100. . 200, 400. . 500,

700. . 1000)同样代表了该基因外显子的位置, 而 2

个外显子之间的部分 ( 201. . 399, 501. . 699) 为该基

因的内含子. 当 CDS位于当前序列的互补链上时,

外显子的描述分别为: 900. . 500, 300. . 150, 100. .

50, 而内含子的描述分别是 499. . 301, 149. . 101. 基

于对大量 CDS. . . jo in域的计算机化处理, 将基因组

中所有包含内含子的基因的结构信息保存在 FASTA

格式的文件中, 即构成 Exon / Intron数据库 ( EID ).

G ILBERT 研究小组对 GenBank ( re lease 84) 中

9 276条记录 ( Entries)的 CDS特征域进行解析, 分别

提取每条 Entry的 Intron /Exon 结构、基因定义、LO

CUS名称和蛋白质序列, 并计算了 Intron的位置、相

位 ( Phase) 以及 Intron /Exon 的数量、大小, 构建了原

始的 Exon /Intron 数据库 ( E ID )

[ 8]

. 在此基础上,

DEUTSCH

[ 9]

、 SAXONOV

[ 10]

、 FEDOROV

[ 11- 12]

、

SHAO

[ 13]

等也使用了类似的构建数据库的方法, 使

得内含子的研究进入了一个空前繁荣的时期. 但以

解析 GenBank数据库中 CDS特征域来构建 E ID 的

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余5页未读，立即下载

评论收藏

内容反馈

weixin_38522253

粉丝: 2
资源: 877

人类基因组非冗余Exon /Intron数据库的构建 (2010年)

最新资源

人类基因组非冗余Exon /Intron数据库的构建 (2010年)

biojs, 一个用来表示生物学数据的JavaScript组件库.zip

biojs-vis-blast:用于可视化 BLAST 结果的 BioJS 组件

biojs-io-snparser：将原始SNP数据解析为Javascript对象

基于CDS. . join特征域的Exon/Intron数据库的构建 (2009年)

BUCK/BOOST转换器小信号建模与稳定性分析 (2009年)

基于MATLAB/SIMULINK的并网型双馈风力发电机仿真模型的研究 (2010年)

由心电信号提取呼吸信息的算法及其仿真实现 (2014年)

三自由度Delta并联机器人运动学分析及工作空间求解 (2008年)

自制桥式差分电容测量电路 (2009年)

基于MATLAB Robotics工具箱的SCARA机器人轨迹规划与仿真 (2012年)

一种新型电荷放大器的设计方法与电路 (2006年)

已知环境下一种高效全覆盖路径规划算法 (2011年)

二极管双平衡混频器电路分析 (2004年)

线性自抗扰控制参数b0辨识及参数整定规律 (2015年)

基于Matlab的壳体有限元分析 (2010年)

基于快速IAA 算法的MIMO 雷达参数估计 (2012年)

2FSK调制解调系统的FPGA设计与实现 (2010年)

掺镱（Yb3+）双包层光纤激光器的数值分析 (2013年)

多层膜反射率的计算 (2011年)

基于MATLAB的电力系统稳态仿真分析 (2013年)

主动雷达海面箔条云回波信号的仿真方法 (2009年)

基于四麦克风阵列的三维声源定位 (2010年)

基于Matlab 的均布荷载作用下矩形 薄板的有限元分析 (2009年)

一种基于 TDOA/AOA的混合三维定位算法 (2012年)

硅光二极管光电检测电路的研究与设计 (2013年)

最新资源

基于Matlab 的均布荷载作用下矩形薄板的有限元分析 (2009年)