论文研究-流形排序算法预测microRNA.pdf

所需积分/C币:9 2019-07-22 18:25:18 317KB .PDF
收藏 收藏
举报

在已知microRNA(miRNA)较少的情况下,为了提高算法预测的准确性,提出一种基于流形排序的miRNA预测算法。该算法采用加权图模型描述序列,使用置信传播分配排序分数,降低了算法的时间复杂度;算法根据大规模数据内部全局流形结构进行排序,提高了排序结果的准确性。在人类和按蚊全基因组范围内的实验证明,流形排序算法的预测效果优于传统的预测方法,可以作为预测miRNA的一个有效工具。
第3期 王常武,等:流形排序算法预测 microrna 821 一个样本。詈信传播开始时,节点x;到x的传播概率定义为α指定邻居节点与前一循坏结束时节点的排序分数对本次排 序分数的影响系数 c)当集合X中每个节点的置信度不再更新时,迭代完毕。 其中:为节点x:与x边⊥的权值;4=2m表示节点x的记F为序列F()}的极限,F为集合X中每条序列x分配置 度,即节点x与全部邻居节点边上的权值之和。式(1)用矩阵信度y=agmx≤F。文献[1i明了F(t+1)=aSF()+ 表示为P=DW其中:D为一个邻接矩阵,D中的每个对角(1-a)Y的收敛性。 元素d=∑W表示该节点的度;矩阵尸描述了图模型中各个 置信传播的规则是通过多次重复运算得到欲求答案的计 节点间传播的概率,把矩阵P划分为 算过程,一次比一次接近精确欲求的答案。置信传播结束后 Pro p (2)未标记样本的排序分数收敛于F*。在置信传播开始前,集合 X中已知miNA序列的置信度设为1;未知序列的置信度设为 矩阵尸的划分包括四部分,分别为标记样本间传播的概0,即F(0)=Y由F(+1)=aF()+(1-a)Y可知: 率Po;标记样本向未标记样本传播的概率Po;未标记样本向 F(1)=(c)-Y+(1-a)∑(aS) (7) 标记样本传播的概率P;未标记样本间传播的概率Pu。相 由0<α<1且S的特征值位于闭区间[-1,1]可知 应地,权值矩阵W和邻接矩阵D也划分为 )-=0, lim 2(aS)=(I-uS) W (3) o Duu 因此 其中,O表示元素仝为0的矩阵。 s =lim F(o=(1-a(I-aS)Y 图模型上的节点通过詈信传播更新和传播置信度。当节 因为参数(1-a)对置信度的排序结果没有影响,所以式 点x到x的置信传播发生时,由x传播其置信度给x,x根据(8)可简写为 传播规则更新自己的置信度。这是一个动态传播过稈:节点把 F=(I-aS)Y 置信度传播给邻居节点,同时也接收邻居节点的置信度。在传 当置信传播迭代完毕时,节点的置信度不再改变且收敛于 播结束后,节点根据邻居节点传播的置信度更新自身节点的置F。通过迭代计算式(9),集合X中每个节点都得到白已的 信度。因为标记样本作为置信度最高的节点在传播过程中起置信度F。节点的F越高,该节点所代表序列为新mRNA 范例的作用,所以标记样本只传播詈信度,不接收邻居节点的的概率越大。对节点的F排序,检索出F较大节点,这些节 置信度。图模型中置信传播规则为 点所代表的序列即为流行排序算法预测的结果。 (4) 2实验及结果 其中,k为置信传播的迭代次数,∝∈[0,1)设定未标记样本在 置信传番屮比例的大小。上式的矩阵表达式为 2.1实验数据和检验标准 -1=oP/+P (5) 从 mirna前体序列数据库 mirbase(htp://ww. mirbase 由式(1)(3)可知,式(5)可表示为 org/)中下载人类和按蚊的己知 mirNa前体序列,从UCSC 在木文中,使用置信集L={1,…,c标记集X={xm,…序8nome.ues,cdm/)中下载具有茎环结构的RNA +1)=Duu Wu+Di Wuofo (6)(http xn,xn1,…,xm中每条序列的置信度。把集合X中前n个已 在 mirNa的预測中,对预测准确率的评价使用敏感度和 知 mirna序列标记为y∈L的标记样本,将未知序列标记为特异性。敏感度ⅹ=1一是指所有的已知mRNA对中被正 TP+FN 未标记样本。为∫讨论方便,定义Φ为一个(n+m)×c阶矩 阵集。矩阵F=F1,…,Fn]∈作为分类器给序列x1分配 确预测到的百分比,特异性Y 是指在所有预测到的结 TP+ FP 个置信度y=gmc,F。分类器也可以写成一个矢量果中正确预测的百分比。其中,TP( true positive)表示正确预 数F:XR°,这个函数为条序列分配置信度F。使用矩阵测 mirNA的个数;FN( false negative)表示真实存在但没有被 Y∈币中元素Y描述集合X中节点的标记情况,Y=1表示节正确预测出的miNA个数;HP( false positive)表示不作在但被 点x,被标记为y,否则V2=0。在初始状态时,对于已知m-错误预测到的个数 RNA序列,Yn=1;对于未知序列,Yn=0。流形排序算法的步2.2实验结果 骤可描述为: a)提取原始数据的全局和局部特征。四个全局特征分别 a)通过建立矩阵S=DMD归一化矩阵W。对W是序列的最小自由能、环的长度、茎上每条臂的碱基配对参数。 进行一化处理可以使传播规则收敛,从而保讦置信传搢对称本文采用三联体结构一序列特征描述原始数据的局部特征。 地执行。 把每条序列的序列特征抽取为一个32维向量,经过对每条序 b)迭代计算F(t+1)-aSF(t)+(1-a)Y,α∈0,1)。列特征值的抽取,使用36个特征值组成的向量表示序列的全 其中,函数F:X→丶R根据传播规则为集合X分配置信度。参数局和局部特征。 822 计算机应用研究 b)根据序列间的关系建立加权图模型,并利用在图模型部一致性的基础上,充分考虑了数据分布的全局一致性,成功 上的置信传播给每个节点分配排序分数,根据分数大小进行相实现了从候选序列中预测 Microrna。该算法有以下优点:a) 似性排序预测新 mirnA。 不需要序列的注解,可以从大量没有详细注解的序列中预测 为了更准确地评估算法的预测效果,比较了基于SVM的 MiRNA;b)对序列的保守性没有要求,可从不同物种的序列中 分类算法和基于流形数据排序算法在人类基因和按蚊基因组预测 miRNA;c)对标记样本的数量没有要求,可从已知mRNA 中的预测效果。基于swM的分类算法需要大量的训练样木作较少的物种序列中预测miNA。该算法新颖简洁、意义明确、 为正集,使用全部样本使得算法复杂性很高,核函数随训练集运算速度快、容易实现,不像SM方法那样模型复杂,而且计 的增大而增加。预测的结果不具有统计解释性,而且由于计算算量大,需要专门的软件。实验结果证实了该算法的有效性。 过程牵涉复杂的优化过程而增加计算复杂性。为了直观地分实验预测出的大量候选miNA可为进步 mirnA的研究提 析算法在已知mRNA较少数据集中的预测效果,参考了文献供指导 9]的策略设计出四个正集数目分别为1、10、20和50的分类参考文献: 模型并与之比较。表2给出了在获取相同敏感度的情况下,沉[1] CAI Yi-mei, YU Xiao-min, HU Song-nian,etal. a brief review on 形排序算法在人类基因数据中的预测结果以及与3sVM4 MiRFinderDSVM( microprocessor SVM+ miCrORNA SVM)o the mechanisms of miRNA regulation[J. Genomics, Proteomics Bioinformatics,2009,7(4):147-154 random forest7、 ProMis、 MiRan9方法的比较。从表2屮2]侯好妍,应晓敏,李伍举, Microrna计算发现方法的研究步展 可以看,在已知 mirNa较少的情况下,基丁流形排序算法的 [].遗传,2008,30(6):687-696 预测效果明显优于其他方法。当N=1时,特异性达到了43.[3]郑凌伶,屈良鹄计算RNA组学:非编码RNA结构识别与功能预 3%;当已知 mirNA较多的情况下,该算法略优于传统预测算 测J].中国科学,2010,40(4):294-310 法,或者与传统预测算法预测效果相当。当N=50时,特异性 4 XUE Ceng-hai, LI Fei, HE Tao, et al. Classification of re al and seudo microRNA precursors using local structure-seyuenice features 达到了90% and support vertor machine J. BMC Bioinformatics, 2005, 5(6) 表2 Microrna预测方法在人类基因中的实验结果比较 310-317 方法 N=1 N=10 N=20 [5 HUANG Ting-hua, FAN Bin, MAX F, et al. MiRFinder: an im SSVM 0.218 0.628 0.705 C.810 proved approach and software implementation for genome-wide fast mi M 0.2010.6020.7510.811 ToRNA precursor scans[ J]. BMC Bioinformatics, 2007, 7(8): 341 0.714 349 随机森林0.2870.6410.7620.789 [6 HELVIK S, SNOVE O, SAETROM P. Reliable prediction of Drosha ProMir 0 274 0.7140.814 processing sites improves microrNA gene prediction[ J]. Bioinforma MiRank 0.695 868 tcs,2007,23(2):142-149 流形排序0.433 0.753 0.823 0.900 [7 JIANG Peng, WU Hao-nan, WANG Wen-kai, et al. MiPred classifi 表3给出了在获取相同敏感度的情况下,在按蚊基因组中 cation of real and pseudo microRNA precursors using random forest 使用流形排序算法的预测结果及与其他已有方法的比较。可 prediction model with combined features[ J]. Nucleic Acids Re 以看出,当N=1时,特异性达到了37.4%;其他情况下略好 search,2007,35(4):339-344 于文献[4~9中的方法,当N=50时,特异性达到了96.2%。[8]NAMJ,SHNK, Han Jin-ju,eta!. Human microRNA prediction 表3 Microrna预测方法在按蚊基因中的实验结果比较 through a pmhabilist ic co-learning model of sequence and structure 方法 V=10N=20N=50 [J. Nucleic Acids Research, 2005, 33(7): 3570-3581 0.172 0.551 0.642 0.781 [9 XU Yun-peng, ZHOU Xue-feng, ZHANG Wei-xiong. miRNA predic- MiRFinder0.1890.5130.6890.795 tion with a novel ranking algorithm based on random walks JI. Bioin DsVM0.1920.5730. 0.824 formatics,2008,24(13):50-58 随机森林0.23 0.6040.728 0.831 [10 ZHOU Deng-vong, JASON W, GRETTON A, et al. Ranking on data ProMiS 0.592 0.7520.815 manifold[C //THRUN S, SAUL L, SCHLKOPF B, et al. Advances MiRan 0.3240.741 0.853 0.938 in Neural Information Processing Systems. Cambridge: Massachusetts 流形排序0.374 0.773 0.871 0.962 Institute of Technology 2004: 169-176 [11 ZHOU Deng-yong, BOUSQUENT O, L.AL. T, et al. Learning with lo 3结束语 cal and global consistency. CJ//THRUN 5, SAUL L, SCHLKOPF B, et al. Advances in Neural Information Processing Systems. Cam- 使用流形数据排序算法预测 microrna是一种浙的尝试 bridge: Massachusetts Institute of Technology 2004: 321-328 用流形结构描述数据有效避免了空间距离因素对节点相似性[12. DROR G, SOREK R, SHAMIR R. Accurate identification of alterna 分配的影响。结合三联体结枃_序列特征提取序列特征值,利 ively spliced exons using support vector machine[ J]. Bioinforma 用流形排序方法改善了检索排序的结果。在保持数据分布局 tics,2005,21(7):897-901

...展开详情
试读 4P 论文研究-流形排序算法预测microRNA.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    上传资源赚积分,得勋章
    最新推荐
    论文研究-流形排序算法预测microRNA.pdf 9积分/C币 立即下载
    1/4
    论文研究-流形排序算法预测microRNA.pdf第1页
    论文研究-流形排序算法预测microRNA.pdf第2页

    试读已结束,剩余2页未读...

    9积分/C币 立即下载 >