随机森林算法讨论
1.1 题目的主要研究内容
(1)随机森林算法分类器的原理和算法流程。
(2)利用现有的任意公开数据集(自己选取)实现分类器分类,并利用
分类准确率、决策树数目对分类结果的影响对分类结果进行分析评判。
(3)运用随机森林算法和现有数据集,实现随机森林的回归预测。
1.1.1 本论文研究内容
本论文主要实现基于随机森林的算法实现回归预测,回归随机森林作为一
种机器学习和数据分析领域常用且有效的算法,对其原理和代码实现过程的掌
握是非常有必要的。本论文将着重介绍从零开始实现回归随机森林的过程,对
于随机森林和决策树的相关理论原理将不做太深入的描述。本论文的目的只是
为了演示回归随机森林主要功能的具体实现过程。
1.1.2 原理介绍
随机森林属于 Bagging 类算法,而 Bagging 又属于集成学习一种方法,集
成学习的大致思路是训练多个弱模型打包起来组成一个强模型,强模型的性能
要比单个弱模型好很多,其中的弱模型可以是决策树、SVM 等模型,在随机森
林中,弱模型选用决策树。
在训练阶段,随机森林使用 bootstrap 采样从输入训练数据集中采集多个不
同的子训练数据集来依次训练多个不同决策树;在预测阶段,随机森林将内部
多个决策树的预测结果取平均得到最终的结果。本论文主要介绍回归随机森林
从零实现的过程,实现的 RFR(回归随机森林)的功能。
1.1.3 模型训练
本文实现的 RFR 是将多个二叉决策树(即 CART,这也是 sklearn,spark 内
部实现的模型)打包组合而成的,训练 RFR 便是训练多个二叉决策树。在训练
二叉决策树模型的时候需要考虑怎样选择切分变量(特征)、切分点以及怎样衡
量一个切分变量、切分点的好坏。针对于切分变量和切分点的选择,本实现采
用穷举法,即遍历每个特征和每个特征的所有取值,最后从中找出最好的切分