蛋白质-蛋白质相互作用(Protein-Protein Interaction,简称PPI)在生物细胞的生命活动中无所不在,并且对于理解细胞运作机制至关重要。PPI位点(亦即相互作用的残基)对于揭示PPI的潜在机制至关重要。在生物研究和药物开发方面,由于许多药物将直接与这些残基相互作用,因此,精确识别PPI位点对于开发新的治疗药物具有极大的帮助。尽管PPI预测在计算生物学中已成为一个重要课题,但在PPI预测问题中存在严重的数据不平衡现象,即非相互作用残基的样本数量远远超过相互作用残基样本。因此,该研究提出了一种新的级联随机森林算法(Cascade Random Forests Algorithm,简称CRF),旨在解决PPI预测中的数据不平衡问题。
级联随机森林算法通过级联的方式连接多个随机森林(Random Forests,简称RF),每一个随机森林都使用包含所有少数样本和部分多数样本的平衡训练子集进行训练,且采用有效的集成协议。基于所提出的CRF算法,研究者实现了一种新的基于序列的PPI预测器,名为CRF-PPI,其模型输入采用位置特定评分矩阵、平均累积疏水性和预测相对溶剂可及性的综合特征。在交叉验证和独立验证数据集上的基准实验表明,所提出的CRF-PPI在性能上超越了现有的基于序列的PPI预测器。
随机森林是一种集成学习方法,它通过构建多个决策树并将它们的结果进行综合以改善单一决策树的泛化能力。随机森林能够处理高维度的数据,并且对于缺失值和噪声数据具有良好的鲁棒性,因此在处理生物信息学问题,特别是蛋白质结构和功能预测方面表现突出。然而,随机森林在处理不平衡数据集时往往会偏向于多数类,这就导致在预测PPI位点时效果大打折扣。CRF算法的提出正是为了解决这一问题。
级联随机森林算法的核心在于通过将多个随机森林级联起来,每一个随机森林都侧重于分类问题中的某一特定方面。通过平衡训练集来解决数据不平衡问题,通过集成的方式提高预测的准确度。在每个级联的随机森林中,采用的平衡训练子集包括所有少数样本和部分多数样本,这样的处理能够确保训练集中正负样本均衡,有利于随机森林算法发现少数类中的关键特征,增强算法的泛化能力。
CRF-PPI预测器结合了三种特征:位置特定评分矩阵、平均累积疏水性和预测相对溶剂可及性。位置特定评分矩阵(Position-Specific Scoring Matrices,简称PSSM)是一种描述蛋白质序列中每个位置氨基酸出现概率的矩阵,通常用于表示序列的保守性;平均累积疏水性(Averaged Cumulative Hydropathy)是蛋白质的一个物理化学特性,描述了蛋白质表面的疏水性分布,与蛋白质折叠和功能密切相关;预测相对溶剂可及性(Predicted Relative Solvent Accessibility,简称RSA)反映了氨基酸残基在蛋白质三维结构中暴露于溶剂的可及性,这对于识别蛋白质表面的潜在PPI位点非常重要。
研究者通过在交叉验证和独立验证数据集上的测试,证明了CRF-PPI预测器在性能上超越了现有的预测器。这不仅为蛋白质功能的研究提供了新的视角,也为药物设计领域提供了更为精确的靶标识别工具。此外,CRF-PPI的源代码和基准数据集可在线获取,这无疑为学术界免费使用和进一步研究提供了便利。
该研究在PPI预测领域具有重要意义,其通过级联随机森林算法有效地解决了数据不平衡问题,并结合了蛋白质序列中丰富的信息,大大提高了PPI位点预测的准确性。这项工作不仅推动了计算生物学的发展,也为新药研发和生命科学研究提供了重要的工具和思路。