自从 30 多年前第一个细胞穿膜肽(cell penetrating peptides, CPPs)被发现以来,CPPs 已
经在医学领域得到了广泛应用
[1]
。CPPs 具有能够携带各种物质(包括小分子物质和蛋白质
等)直接进入细胞而不会显著损伤细胞膜的特性
[2]
。这种特性使它们可以成为将物质转运到
细胞中的药物递送剂,目前已被制药公司应用于多种治疗分子的局部和全身给药的临床实
验中
[3]
。因为 CPPs 的实用性,识别 CPPs 也成为了一个有价值的研究领域。
传统的实验方法费时费力,当前生物序列预测领域采用更加省时高效的计算方法对序
列进行预测
[4-5]
。目前,已有不少识别 CPPs 的算法模型,其中大多基于机器学习算法。如
文献[6]鉴定了 111 种已知的 CPPs 和 34 种已知的 non-CPPs,并使用基于不同生化特性的
特征表示算法和支持向量机(support vector machine, SVM)对 CPP 进行分类。文献[7]提出了
一种同样基于 SVM 的预测方法 CellPPD,它的改进之处在于使用了更多的特征表示算法和
更大的数据集。文献[8]提出的 C2Pred 使用基于二肽的特征提取方法,降维后用 SVM 分类
器对 CPP 进行了分类,也取得了很好的结果。文献[9]构建了一个基于随机森林分类器的两
层预测模型,该模型不仅可以对 CPPs 和 non-CPPs 进行分类,还可以预测 CPPs 的吸收效
率高低。文献[10]开发了 CPPred FL,该模型使用了 19 种不同的特征表示算法和多种不同
的机器学习分类器。
最近也有一些研究者使用深度学习方法来进行 CPPs 的识别,如文献[11]基于
Transformer 模型提出了 CPPFormer,该算法根据 CPPs 序列较短的特征重构了 Transformer
网络模型,并结合了多种基于生化特性的特征表示算法进行分类。文献[12]提出了
DeepCPPred,是一种基于多级深度神经网络的两层预测模型。
目前基于不同的蛋白质序列特征编码算法已经有了多种识别方法,识别精度也在逐步
提高。本文提出了一种基于卷积神经网络的特征表示算法 ConvCPP,获得了更好的特征表
示能力。ConvCPP 的创新之处在于首次使用了基于卷积神经网络的算法进行细胞穿膜肽的
特征表示工作,且在卷积神经网络加入了注意力模块以更好地提取序列特征。算法的主要
流程为将蛋白质序列中的氨基酸编码为不同的向量,然后将编码后的序列输入到卷积神经
网络中,提取网络的最后一层作为特征表示。最后,将卷积网络提取到的特征和一些传统
特征表示方法得到的特征相结合,并集成了多种分类器得到最终的结果。实验结果表明,
ConvCPP 在 SN、SP、ACC、MCC 这 4 项指标上分别达到了 0.950、0.935、0.943 和
0.885,在预测精确度 ACC 上相对当前主流分类算法有 2.2%的提升,具有更好的分类性
能。本文将模型做成了 CPPs 预测软件包,可在网址链接:
https://pan.baidu.com/s/1Lx60bAQe_MfFa0QDKJ_rcw?pwd=hilb 下载使用。
1. 细胞穿膜肽识别算法流程
1.1 模型框架