深度神经网络蛋白质溶解性预测模型设计
深度神经网络蛋白质溶解性预测模型设计是生物信息学领域的重要研究课题。通过分析蛋白质溶解性数据,结合特征提取和深度学习技术,设计多种卷积神经网络预测蛋白质溶解性的模型。本文中,我们使用CD-HIT对蛋白质原始数据进行降噪,并利用G-gap对每个样本进行张量化处理,得到适用于卷积神经网络的特征数据。为了提高模型预测精度,对每个样本利用SCRATCH工具提取6维序列特征和51维结构特征作为额外特征。依据数据特点,通过对卷积层的串并联结构调整组合,设计4种不同网络模型,实现蛋白质溶解性预测。
本研究设计的蛋白质溶解性预测模型基于深度双路卷积神经网络(DDcCNN),其预测精度、查全率、查准率、MCC(Matthews Correlation Coefficient)等性能指标分别达到76.31%、65.31%、75.05%、0.55。并通过与基于传统的深度神经网络、支持向量机、随机森林、决策树建立的预测模型进行比较试验,证明了本研究设计的有效性。
蛋白质溶解性是蛋白质关键特征之一,研究蛋白质溶解性具有重要的理论和实际意义。目前蛋白质可溶性研究方式主要分为两类:试验方法和计算方法。试验方法是利用大肠杆菌进行特异性表达,从而获得蛋白质的可溶性。计算方法是一种替代试验方法的重要方式,通过对蛋白质序列数据进行分析计算,利用机器学习算法预测蛋白质溶解性。
常用的机器学习算法主要为支持向量机、神经网络算法、随机森林等方法。CCSOL是基于SVM建立的预测工具,PaRSnIP是RED A等人在2017发布的工具,SOLpro提取一级序列的23组特征用于训练两阶段支持向量机(SVM)架构。PROSOII是PAWEL等人使用了带有修改Cauchy内核的概率密度窗模型的二级逻辑分类器。
深度学习是目前人工智能技术的核心领域,相对于SVM等“浅层学习”,深度学习模型能够获得更多非线性关系。卷积神经网络是深度学习的重要构架之一,在图像检测、人脸识别、音频检索等方面收到了广泛的应用,并取得了较好的效果。但是,较少应用在蛋白质溶解性预测研究领域。MASSACHUSETTS INSTITUTE OF TECHNOLOGY SAMEER KHURANA等在2018年构建了DeepSol模型,使用深度学习算法预测蛋白质溶解性。
深度神经网络蛋白质溶解性预测模型设计是生物信息学领域的重要研究课题,通过分析蛋白质溶解性数据,结合特征提取和深度学习技术,设计多种卷积神经网络预测蛋白质溶解性的模型。本研究设计的蛋白质溶解性预测模型基于深度双路卷积神经网络(DDcCNN),其预测精度、查全率、查准率、MCC等性能指标表现优异,并证明了本研究设计的有效性。