论文研究-地下水流可视化多尺度数值模拟系统设计与实现.pdf

所需积分/C币:5 2019-09-12 13:31:24 575KB .PDF

预测含伪结的RNA分子二级结构是生物信息学的一个研究难点。利用多分类支持向量机结合贝叶斯神经网络针对含伪结的RNA分子二级结构进行预测。利用多分类支持向量机进行预测,输出端得到相应碱基的平面伪结结构的E-NSSEL(Extend New Secondary Structure Element Label)类别标签。使用碱基已预测的结果通过贝叶斯神经网络进行修正,并恢复RNA分子二级结构。使用该方法能有效地改善含伪结的RNA分子二级结构的预测效果。
张洪礼,张娜,刘文远,等:含伪结的RNA分子二级结构预测 2011,47(8)221 类器模型的预测结果。因此,在训练数据集相对有限的条件把网络参数w分为四组w(.月、w2(,k)、B()、B2(k),分别表 下极大地限制了模型的泛化能力。利用贝叶斯方法学习模型示输入层隐层、隐层输出层、偏差节点-隐层、偏差节点输出 能够成功地克服这种局限性,训练过程中所有网络参数被看层之间的连接权重通过四个超参数a1、a2、a3、a4控制各组权 成随机变量,通过融入网络参数的先验分布,在获得的数据条重的变化幅度,其中、k分别表示输入、隐层:输出节点。 件下不断更新参数的后验分布,最终得到基于参数后验分布 假设第n个样本有m组的输入特征向量为Xn=(x,x2…,xm) 的预测概率密度为 设网络参数在获得任何数据之前的先验分布为m(6)其中x表示国标碱基邻近碱基已预测的结果。BNN的输入 p(yD)=p(y xn, w)p(w)Dydw 采用与SVM相同的滑动窗口,不同的是,对于窗中的15个碱 ),则基,并不是对每一个碱基本身进行编码而是对每一个碱基所 可定义一个正则化器为 对应的 E-NSSEL标签进行编码,如表1 R (7) 表1 E-NSSEL中结构单元的编码方式 来控制模型的复杂度。同理,可以对网络参数w分组定义多 SSE名称 E- NSSEL标签 标签编码 个正则化器。根据贝叶斯规则及式(5)、式(7)可得 10000 Inp( D)=Inp(Dw)+Inp(w)+C--E(w)-R(w)+C(8 pseudoknots 2 01000 其屮,C为常数。令BNN的总误差函数为 00100 U(w)=E(w)+R(w) (9) pseudoknots 由式(8)可得参数后验概率密度为: Loop 00001 P(wD)-zexpl-U(w) (10) 这些 E-NSSEL标签是从前面SVM的输出中得到的。根 其中,z为归化因子。因此,最终的BNN分类模型由下式给出: 据对式(11)的计算,分类结果概率最大的输出为1,其余输出 为0,根据输出结果即可得对应碱基的E- NNSEL标签,从而对 N+1, W)P(w D)d SVM已预测结果进行修正,得到RNA序列对应的 E-NSSEL L(aI, M)exp[-U(w)]dw (11)标签序列。 式中,的值表示相应样本属于第类的概率,分类的结果23恢复RNA二级结构 转换为对式(11)的计算。 根据 E-NSSEL标签序列和RNA的二级结构的对应关 囚为贝叮斯学习框架下的BNN模型较传统的BP神经(系。针对含有一个简单伪结的RNA分子,一个RNA序列的 模型具有更好的泛化能力特别是对于小样本训练数据集问题级结构可以唯地表示为一个 E-NSSEL序列而由RNA的线 预测结果更为准确。因此,在对RNA二级结构已预测结果进性序列及其ENEL列,也可以唯一地恢复出该序列的二 行修正时采用BNN比采用传统的神经网络预测准确率更高。 级结构。显然,对于一个已知的F- NSSEL标签序列,只要在对 其顺序遍历的时候,+Stem和+ pseudoknots压栈,下面遇到 2方法设计 的-Sten和- pseudoknots必然和栈顶的+Stem和+peu- 21用SVM预测RNA的二级结构 doknots匹配。这样就可以把 E-NSSEL标签序列恢复为对应 的RNA二级结构。 SVM算法是典型的二分类算法,本文涉及到的多分类算 法采用的是有向无环图多分类支持向量机的分类策略。首先 选取径向基核函数在进行二级结构预测时,可将RNA序列看3实验及结果 作是与二级结构相关的信号,二级结构与碱基的长程和短程3.1实验数据 信息相关。多次实验表明窗口长度为15时有较好的预测效 本文的实验数据是在EMBL数据库(htt:/ wwebi. ac, uk 果,预测时选择一个碱基前后相邻的7个,共15个碱基作为一cmb)冲抽取出来的含有平面伪结结构的同源RNA序列。这 个样本编辑输入,通过移动中心位置可得到多个样本。每 些序列有很高的相似性,其截取的碱基序列片段可以从 个窗对应一个样本,用一个15×5bit=75bit的0-1编码来表示 (htt:/ biology. leidenunivnL/- batenburg/ PKB. html)下载得到 这个窗的输入,编码的含义是:窗口中的每一位代表一个碱使用65条序列共2532个碱基作为训练样本再取出32条序 基用一个5h正交的01编码来表示该碱基类型(ACGU中列,共597个碱基进行测试。 的一种各碱基和二进制编码问的对应关系为: 32检验标准 A-10000C—01000 对预测准确率的度量绝大多数使用的都是敏感性S,特异 G00100U-00010 性S,马休兹相互作用系数MCC这三个参数。在RNA二级 窗口输出的则是中间位置的碱基在其分子二级结构中所结构预测中,用TP表示正确预测碱基对的个数;FN表示真实 属的类别(也就是 E-NSSEL的5个标签中的一个)。 结构中存在但没有被正确预测出的碱基对个数;FP表示真实 22贝叶斯神经网络对SVM分类结果的修正 结构中不存在却被错误预测到的碱基对个数;ⅨN表示正确预 E-NSSEL将RNA二级结构分为5类结构单元,对于这个测的不配对的碱基个数。具体计算公式如下: 五分类问题,取k5。在这里使用的是带一个隐层的三层前馈 TP+FM TP+ FP 贝叶斯神经网络模型,相应层的激活函数采用 Logistic函数 Mcc TP×TN-FP×FN f(x)=1(1+e-),且在每层都使用了一个偏差节点,偏差节点 V(TP+ FP)(TP+ FN)(TN+ FP)(N+ FN) 输入信号x=1。为了控制模型的复杂度,添加了四个正则化33实验结果 器分别对四组权重参数学习过程中的变化幅度进行控制,即 实验包括两个步骤。 2222011,47(8) Computer Engineering and Applications计算机工程与应用 (1)首先选取径基核函数K(x,x)=ex川x-x1|),参RNA二级结构是一种新的尝试。利用这种方法结合 E-NSSEL 数r=02,使用多分类支持向量机的分类器对样本进行分类。标签进行编码,成功地实现了含平面伪结的RNA分子二级结 它们分别是sVM、SVM。和SVMa。这三个分类器所采构的预测。实验表明,该算法能够得到理想预测效果。但是 取的分类策略不同。 SVM是基于1-ar分类思想的分类本算法暂时不能实现非平面伪结结构的预测,期待有进一步 器。SVMa是基于141分类思想的分类器。本文采用的是的发现。 DAGSVM分类算法, SVM是基于此算法的分类器。由于分 类的特殊结构,使其具有一定的容错性,分类精度较高。 参考文献: (2)根据邻近碱基已预测的结果,设计了一个贝叶斯神经[] Fertig B. Richter o, Wohnert I, et al. NMR spectroscopy of RNA[J 网络的分类器,对(1)中样本的分类结果进行修正。四种分类 Chembiochem,2003,4(10):936-962 器分类效果如表2所示。 [2 Jiang Tao, Xu Ying, Zhang M Q Current topics in computation 表2四种分类器分类方法的比较 al molecular biology M]. Beijing: Tsinghua University Press, 2002 分类方法灵敏性(S)特异性(S)马休兹相互作用系数(MCC) [3 Zuker MOptimal computer folding of large RNa sequence us SVM ing thermodynamics and auxiliary information[J] Nucleic Acids 7753 77.02 Rcscarch,1981,9(1):133-1 SVM 80.16 8781 [4] Sakakibara Y, Brown M, Hughey R, et al. Stochastic context-free SVM AG Bayesian 81.23 8 82.15 grammars for tRNA modeling[J] Nucleic Acids Research, 1994 22(23):5112-5120 从表2中可以看出,SVM的预测精度远高于前两种方 法,这是因为有向无环图思想的引入使其有一定的容错性。[5]何静媛,何中市,邹东升RNA二级结构预测的支持向量机模型研 究门计算机科学,2008,5(4):181-183 在这几种预测方法中, SVMnAG-Bayesian的预测精度最高,将多 [6] Hsu C W, Lin C J. A comparison of methods for multi-class 分类支持向量机和贝叶斯神经网络结合起来进行预测的效果 support vector machines[J].IEEE Trans on Neural Networks 要比单独使用多分类支持向量机时的效果好得多。在多分类 2002,13(2):415425 支持向量机预测结果的基础上,使用贝叶斯神经网络对输出(] Neal f. Bayesian learning for neural networks[ M. Berlin: Springer 的 E-NSSEL标签进行修正,改善了含伪结的RNA分子二级结 Ⅴ erlag,1996 构的预测效果。也表明邻近碱基的二级结构信息对目标碱基 Lardner, Telegenic. comprehensive comparison OT com 的二级结构是有一定影响的。 matics,2004,5(1):1-32 [9 Baldi P, Brunak S, Chauvin Y, et al. Assessing the accuracy of 4结束语 prediction algorithms for classification: An overview[J]. Bioinfor- 使用多分类支持向量机模型结合贝叶斯神经网络来预测 matics,2000,16(5):412-424 (上接174页) 18,20,22,28,30)得到最终结果 经启发式策略(1)还原后结果,如图4(b)(去除哑结点14 将遗传算法应用于DAG图生成系统。尽管其结果较优 15,16)。 良,但最大缺陷在于计算时问较长。因此,对实时性要求不高 经启发式策略(2)还原后结果,如图4(c)(去除哑结点19,的优化场合,遗传算法是一个很好的选择。 21,23,24,25,26,27,29,31)。 对去除哑结点,还原层次图,本文的策略得到了理想的效 经启发式策略(3)还原后结果,如图4(d)(去除哑结点17,果。然而更加完善是一个值得探索的课题,如图4(d)中 5-10、3-8、9-13之间完仝可以用直线连接,而8-12却不可以,如 何作出准确的判断还需进一步做大量的工作。 4:4222P8482 13参考文献: 8 []娄燕飞有向图自动生成算法的改进与实现[武汉大学学报:信 16 2 息科学版,2003,28(3)(增刊):88-90. (a)未还原的层次图 (b)运用启发式策略(1)得到的还原图[2] Cades p, Lin Xuemin Ilow to draw a directed graph[CI/IEEE orkshop on Visual Language [3 Junger M, Mutzel P2-layer straightline crossing minimization Performance of exact and heuristic algorithms[J] Journal of 4:4:以 Graph Algorithms and Applications, 1997, 1(1):1-25 4]吕启斌,黄克伟一个求解层次图边交叉数最小化问题的遗传算法[ 计算机工程与设计,2003,24(5):92-96 c)运用启发式策略(2)得到的还原图(d运用启发式策略(3)得到的还原图[5] Healy p, Nikolov N S How to layer a directed acyclic graph[J 图4DAG图优化过程实例 Graph Drawing, 2001: 16-30

...展开详情
img
  • 至尊王者

    成功上传501个资源即可获取

关注 私信 TA的资源

上传资源赚积分,得勋章
相关内容推荐