BP算法(反向传播算法)以其良好的非线性逼近能力、泛化能力以及实用性成为了人工神经网络训练算法中应用最为广泛的算法。但同时使用BP算法又存在收敛速度较慢、易陷入局部极小值等问题。为了将BP算法用于大规模数据分类问题,采用MapReduce思想,将大数据集切分成若干小的数据集来并行加速处理,同时引入Bagging算法的思想来综合并行结果,提高分类的准确率。通过在各个节点上根据子数据集独立地训练各个BP神经网络,直至各网络收敛,再将各节点上的网络收集起来进行集成,形成最终的分类器。基于Spark平台的实验表明,本文提出的算法具有良好的并行加速性能,且具有较高的分类准确率。