RF-BigDataCS:随机森林部分 MapReduce 算法处理不平衡大数据的成本敏感方法。
受 Mahout Random Forest Partial 实现的启发,我们构建了一个新的随机森林版本,可用于对不平衡的大数据进行分类。 Mahout部分实现(RF-BigData)是一种为数据的不同部分构建多个树的算法。 该算法分为两个不同的阶段:第一阶段专门用于创建模型,第二阶段专门用于使用先前学习的模型估计与数据集关联的类。 在第一阶段,随机森林是按照 MapReduce 过程从原始训练集构建的。 此过程如图 1 所示,包括三个步骤:初始、映射和最终。 当森林建设完成后,开始分类阶段以估计与数据样本集相关联的类别。 此过程如图 2 所示,包括三个步骤:初始、映射和最终。 为了使基于成本敏感学习的随机森林版本适应 Mahout 环境,我们需要将成本敏感操作包含到基本的随机森林实现中。