Spark随机森林算法原理、源码分析及案例实战资源-CSDN文库

98 浏览量 2021-02-26 09:14:29 上传评论 2 收藏 908KB PDF 举报

资源推荐

资源详情

资源评论

Spark随机森林算法原理、源码分析及案例实战随机森林算法原理、源码分析及案例实战

本文首先对决策树算法的原理进行分析并指出其存在的问题，进而介绍随机森林算法。同单机环境下的随机森林构造不同的

是，分布式环境下的决策树构建如果不进行优化的话，会带来大量的网络 IO 操作，算法效率将非常低，为此本文给出了随机

森林在分布式环境下的具体优化策略，然后对其源码进行分析，最后通过案例介绍随机森林在金融领域内如何进行优质客户的

分类。

引言

Spark 内存计算框架在大数据处理领域内占有举足轻重的地位，2014 年 Spark 风靡 IT 界，Twitter 数据显示 Spark 已经超越

Hadoop、Yarn 等技术，成为大数据处理领域中最热门的技术，如图 1 所示。2015 年 6 月 17 日，IBM 宣布它的“百万数据工

程师计划”，承诺大力推进 Apache Spark 项目，并称该项目为“以数据为主导的，未来十年最为重要的新的开源项目”，计划投

入超过 3500 名研究和开发人员在全球十余个实验室开展与 Spark 相关的项目，并将为 Spark 开源生态系统无偿提供突破性的

机器学习技术——IBM SystemML。从中不难发现，机器学习技术是 IBM 大力支持 Spark 的一个重要原因，这是因为 Spark

是基于内存的，而机器学习算法内部实现几乎都需要进行迭代式计算，这使得 Spark 特别适用于分布式环境下的机器学习。

本文将对机器学习领域中经典的分类和回归算法——随机森林（Random Forests）进行介绍。首先对随机森林算法的核心原

理进行介绍，接着介绍其在 Spark 上的实现方式并对其源码进行分析，最后给出一个案例说明随机森林算法在实际项目中的

应用。后续相关内容介绍全部以分类角度进行，回归预测与分类在算法上并没有太多的差异，本文旨在理解随机森林在 Spark

上的实现原理。

图 1. Spark 与其它大数据处理工具的活跃程度比较

环境要求

操作系统：Linux，本文采用的 Ubuntu 10.04，大家可以根据自己的喜好使用自己擅长的 Linux 发行版

Java 与 Scala 版本：Scala 2.10.4，Java 1.7

Spark 集群环境（3 台）：Hadoop 2.4.1+Spark 1.4.0

源码阅读与案例实战环境：Intellij IDEA 14.1.4

决策树

随机森林算法是机器学习、计算机视觉等领域内应用极为广泛的一个算法，它不仅可以用来做分类，也可用来做回归即预测，

随机森林机由多个决策树构成，相比于单个决策树算法，它分类、预测效果更好，不容易出现过度拟合的情况。

随机森林算法基于决策树，在正式讲解随机森林算法之前，先来介绍决策树的原理。决策树是数据挖掘与机器学习领域中一种

非常重要的分类器，算法通过训练数据来构建一棵用于分类的树，从而对未知数据进行高效分类。举个相亲的例子来说明什么

是决策树、如何构建一个决策树及如何利用决策树进行分类，某相亲网站通过调查相亲历史数据发现，女孩在实际相亲时有如

下表现：

（Entropy）及错误率，它们的公式定义如下：

公式中的 P(i) 表示记录中第 i 类记录数占总记录数的比例，例如前面的女孩相亲例子可以根据见面或不见面分为两类，见面的

记录占比数为 P(1)=9/10，不见面的记录占比为 P(2)=1/10。上面的三个公式均是值越大表示越“不纯”，值越小表示越“纯”。实

际中最常用的是 Gini 不纯度公式，后面的例子也将采用该公式进行纯度计算。

决策树的构建是一个递归的过程，理想情况下所有的记录都能被精确分类，即生成决策树叶节点都有确定的类型，但现实这种

条件往往很难满足，这使得决策树在构建时可能很难停止。即使构建完成，也常常会使得最终的节点数过多，从而导致过度拟

合（overfitting），因此在实际应用中需要设定停止条件，当达到停止条件时，直接停止决策树的构建。但这仍然不能完全解

决过度拟合问题，过度拟合的典型表现是决策树对训练数据错误率很低，而对测试数据其错误率却非常高。

过度拟合常见原因有：

（1）训练数据中存在噪声；

（2）数据不具有代表性。过度拟合的典型表现是决策树的节点过多，因此实际中常常需要对构建好的决策树进行枝叶裁剪

（Prune Tree），但它不能解决根本问题，随机森林算法的出现能够较好地解决过度拟合问题。

随机森林算法

由多个决策树构成的森林，算法分类结果由这些决策树投票得到，决策树在生成的过程当中分别在行方向和列方向上添加随机

过程，行方向上构建决策树时采用放回抽样（bootstraping）得到训练数据，列方向上采用无放回随机抽样得到特征子集，并

据此得到其最优切分点，这便是随机森林算法的基本原理。图 3 给出了随机森林算法分类原理，从图中可以看到，随机森林

是一个组合模型，内部仍然是基于决策树，同单一的决策树分类不同的是，随机森林通过多个决策树投票结果进行分类，算法

不容易出现过度拟合问题。

图 3. 随机森林示意图

随机森林在分布式环境下的优化策略

随机森林算法在单机环境下很容易实现，但在分布式环境下特别是在 Spark 平台上，传统单机形式的迭代方式必须要进行相

应改进才能适用于分布式环境，这是因为在分布式环境下，数据也是分布式的（如图 5 所示），算法设计不得当会生成大量

的 IO 操作，例如频繁的网络数据传输，从而影响算法效率。

图 4. 单机环境下数据存储

图 5. 分布式环境下数据存储

因此，在 Spark 上进行随机森林算法的实现，需要进行一定的优化，Spark 中的随机森林算法主要实现了三个优化策略：

切分点抽样统计，如图 6 所示。在单机环境下的决策树对连续变量进行切分点选择时，一般是通过对特征点进行排序，然后

取相邻两个数之间的点作为切分点，这在单机环境下是可行的，但如果在分布式环境下如此操作的话，会带来大量的网络传输

操作，特别是当数据量达到 PB 级时，算法效率将极为低下。为避免该问题，Spark 中的随机森林在构建决策树时，会对各分

区采用一定的子特征策略进行抽样，然后生成各个分区的统计数据，并最终得到切分点。

特征装箱（Binning），如图 7 所示。决策树的构建过程就是对特征的取值不断进行划分的过程，对于离散的特征，如果有 M

个值，最多个划分，如果值是有序的，那么就最多 M-1 个划分。比如年龄特征，有老，中，少 3 个值，如果无序有

个，即 3 种划分：老|中，少；老，中|少；老，少|中；如果是有序的，即按老，中，少的序，那么只有 m-1 个，即 2

种划分，老|中，少；老，中|少。对于连续的特征，其实就是进行范围划分，而划分的点就是 split（切分点），划分出的区间

就是 bin。对于连续特征，理论上 split 是无数的，在分布环境下不可能取出所有的值，因此它采用的是（1）中的切点抽样统

计方法。

逐层训练（level-wise training），如图 8 所示。单机版本的决策数生成过程是通过递归调用（本质上是深度优先）的方式构造

树，在构造树的同时，需要移动数据，将同一个子节点的数据移动到一起。此方法在分布式数据结构上无法有效的执行，而且

也无法执行，因为数据太大，无法放在一起，所以在分布式环境下采用的策略是逐层构建树节点（本质上是广度优先），这样

遍历所有数据的次数等于所有树中的最大层数。每次遍历时，只需要计算每个节点所有切分点统计参数，遍历完后，根据节点

的特征划分，决定是否切分，以及如何切分。

图 6. 切分点抽样统计

剩余18页未读，继续阅读

内容反馈

weixin_38515270

粉丝: 3
资源: 948

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip