没有合适的资源?快使用搜索试试~ 我知道了~
利用计算生物学方法识别原核启动子的研究进展.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 69 浏览量
2022-12-15
14:21:46
上传
评论
收藏 139KB DOCX 举报
温馨提示
试读
14页
利用计算生物学方法识别原核启动子的研究进展.docx
资源推荐
资源详情
资源评论
启动子通常位于基因上游,能与 RNA 聚合酶特异性结合并起始转录的一段 DNA 序
列,作为转录起始过程的关键元件,激活 RNA 聚合酶与模板 DNA 结合,是基因表达和转
录调节的起始步骤
[1]
。
原核生物 RNA 聚合酶中的 σ 因子可以特异性识别并结合启动子。在大肠杆菌中,存
在多种 σ 因子,根据分子量可以分为 7 类,σ70、σ54、σ38、σ32、σ28、σ24、σ19,在已
知的 7 类 σ 因子中前 6 类保守性极强,而 σ19 在大多数基因组中是缺失的
[2]
。每一类 σ 因
子具有特定的生物学功能
[3-6]
,σ70 主要负责持家基因的转录;σ54 被认为是参与氮代谢的
调控因子以及控制一些辅助进程;σ38 参与稳定期基因的调节;σ32 是热休克 σ 因子(热激
因子);σ28 参与鞭毛的合成;σ24 与极端热应激反应有关;σ19 则参与对铁离子转运系统
的调控。根据 σ 因子的同源性,可将其大致分为两类:一类是 σ70 家族,包括 σ70、σ38、
σ32、σ28、σ24、σ19;另一类是 σ54 家族。大肠杆菌基因组内的启动子类型依据与之结合
的 σ 因子种类也可分为相应的类型。不同类型的启动子共有序列也有所差异。因此,启动
子也依据被识别的片段分为 σ70 家族和 σ54 家族。如 σ70 启动子具有两个重要的基序区
域,−10 区和−35 区,分别位于转录起始位点上游约 10 bp 和 35 bp 处。−10 区含有保守序
列“TATAAT”,又被称为 Pribnow box 或 TATA box,富含腺嘌呤(adenine, A)和胸腺嘧啶
(thymine, T),有助于 DNA 双链解螺旋分离;−35 区则由 6 个保守的核苷酸“TTGACA”组成
[7]
。除了 σ70 因子,−10 区和−35 区也是被 σ70 家族其他因子识别的重要片段。相比之下,
σ54 启动子的共有序列及其位置与 σ70 启动子具有明显差异,在 σ54 启动子的−24 区和−12
区存在保守区域,其保守序列分别是“TGGCA[CT][GA]”和“TGC[AT][TA]”
[8]
。
启动子序列的鉴定对于研究基因表达、分析基因调控机制、研究基因结构以及注释基
因信息至关重要。准确识别启动子的方法一般是依靠昂贵且耗时费力的实验检测方法,然
而,在全基因组范围内进行检测是一项艰巨的任务。随着测序技术以及计算机技术的发
展,越来越多生物的全基因组被测序出来,尤其是原核生物,因此出现了基于计算生物学
的启动子预测方法,这些预测方法在不断地改进,有助于鉴别启动子序列。
表 1 39 个原核启动子预测工具比较
Tools
Benchmark dataset
size (promoter)
Sequence
similarity
Feature
extraction/
selection
Classification
algorithm
Evaluation
strategy
AUC
1.TLS-NNPP
[9]
771 (
E.coli
)
/
The empirical
probability
distribution of
TSS-TLS distance
ANN
Independent
test
/
2.SIDD
[10]
500 (
E.coli
)
/
SIDD
FLD
Independent
test
/
3.FS_LSSVM
[11]
53 (
E.coli
)
/
A domain theory
for promoters/
C4.5 decision
tree
LSSVM
10-fold
cross-
validation
/
Tools
Benchmark dataset
size (promoter)
Sequence
similarity
Feature
extraction/
selection
Classification
algorithm
Evaluation
strategy
AUC
4.Free energy
[12]
1044 (
E.coli
)
879 (
B.subtilis
)
/
Free energy
Modified
scoring
function
Independent
test
/
5.PromPredict
[13]
1145 (
E.coli
) 615
(
B.subtilis
)
82 (
M.tuberculosis
)
/
GC content;
Average free
energy
difference
between the
average free
energy
Training
and
validation
/
6.SIDD-ANN
[14]
1648 (
E.coli
)
/
SIDD profile
data
ANN
Independent
test
/
7.PePPER
[15]
L.lactis
/
PWM
HMM
/
/
8.G4PromFinder
[16]
3570 (
S.coelicolor
)
2117 (
P.aeruginosa
)
/
AT-rich element
and G-quadruplex
motif-based
algorithm
/
Independent
test
/
9.LN-QSAR
[17]
135 (
M.bovis
)
/
Pseudo-folding
2D lattice graph
LDA
Independent
test
/
10.Ensemble-SVM
[18]
450 (
E.coli
σ70)
/
k-mer with
location with
respect to the
TSS/ Symmetric
uncertainty
Ensemble-SVM
10-fold
cross-
validation
/
11.TSS-PREDICT
[19]
450 (
E.coli
σ70)
205 (
B.subtilis
)
26 (
C.trachomatis
)
/
Information
Content; PWM
Ensemble-SVM
Independent
test
/
12.TSS-SLP
[20]
669 (
E.coli
σ70)
/
Dinucleotide
Frequency
Features
SLP
5-fold
cross-
validation;
Independent
test
/
13.PCSF
[21]
683 (
E.coli
σ70)
/
Conversation of
sequence
segments; PCSF
Score function
10-fold
cross-
validation
/
14.IPMD
[22]
270
(
B.subtilis
σ43)
741 (
E.coli
σ70)
/
PCSF; ID
Modified MD
10-fold
cross-
validation
0.847
(
B.subtilis
)
0.920
(
E.coli
)
Tools
Benchmark dataset
size (promoter)
Sequence
similarity
Feature
extraction/
selection
Classification
algorithm
Evaluation
strategy
AUC
15.70ProPred
[23]
741 (
E.coli
σ70)
/
PSTNPss; PseEIIP
SVM
5-fold
cross-
validation;
Jackknife
test
0.990
16.iProEP
[24]
270 (
B.subtilis
)
741 (
E.coli
)
≤80%
PseKNC; PCSF/
mRMR; IFS
SVM
10-fold
cross-
validation
0.988
(
B.subtilis
)
0.976
(
E.coli
)
17.IPWM
[25]
683 (
E.coli
σ70)
/
Entropy-based
conservative
characteristics;
Improved PWM
Score function
10-fold
cross-
validation
/
18.BacPP
[26]
1034 (
E.coli
)
/
Binary digits
ANN
(2,3,10)-
fold cross-
validation;
Independent
test
/
19.vw Z-curve
[27]
1401 (
E.coli
) 660
(
B.subtilis
)
/
variable-window
Z-curve/ IFS
PLS
10-fold
cross-
validation
/
20.Stability
[28]
1035 (
E.coli
)
/
DNA duplex
stability
ANN
(2,3,10)-
fold cross-
validation
/
21.iPro54-
PseKNC
[29]
161
(
prokaryotic
σ54)
≤75%
PseKNC/ F-score;
IFS
SVM
Jackknife
test
/
22.Promote
Predictor
[30]
161
(
prokaryotic
σ54)
≤75%
Motif profile-
based ANF/ MRMD
Bagging; RF;
SVM
10-fold
cross-
validation;
Independent
test
/
23.meta-
predictior
[31]
579 (
E.coli
σ70)
≤45%
sequence-based
features;
structure-based
features
Meta-predictor
Independent
test
0.850
24.bTSSfinder
[32]
3597 (
E.coli
) 12797
(
Nostoc
) 351
/
PWM;
Physicochemical
properties/
ANN
Independent
test
/
剩余13页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3677
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Anaconda3-2024.02-1-Windows-x86-64.exe
- stm32cubemx can通信 一个板子负责传感器采集 一个板子负责wifi传递到网页 网页可控制传感器板子.zip
- k8s集群搭建1.27.1版本(来源于图灵k8s笔记)
- 树莓派连接 DS18B20 温度传感器读取温度时监控客户端,服务器端连接状况,实现断线重连机制
- 小游戏-坦克大战,你认为的小游戏
- 最好用的富文本编辑器wangeditor
- jQuery 3.7.1
- 校园失物招领小程序源码可作毕业设计
- SAP客户端GUI740安装包(JAVA版本)
- winlibs-x86-64-posix-seh-gcc-13.2.0-llvm-16.0.6-mingw-w64msvcrt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功