任务 6.4 集成学习
任务概述
集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类
器系统、基于委员会的学习等,其一般结构是:先产生一组“个体学习器”,再
通过某种策略将他们结合起来。
Bagging 基于自主采样法,对给定的数据集,先随机选取一个样本放入采样
集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这
样,经过多次随机采样操作,可得到一个采样集,然后基于次采样集训练模型,
再将多个模型进行结合。
Boosting 是一组可将弱学习器提升为强学习器的算法,其先从初始训练集
训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先
前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来
训练下一个基学习器,如此重复,直至基学习器模型达到事先指定的值,最终将
这些基学习器进行加权组合。
本节以 Bagging 算法来演示案例实现过程。
当确定好使用某一算法进行模型训练时,可以通过 Bagging 进一步提升该算
法的性能。给定一个弱学习算法和一个训练集,随机选择,各轮训练集相互独立,
将该回归学习算法使用多次得出预测函数序列,进行平均值计算,最后结果准确
率将得到提高。
数据要求:
必须设置因变量,且因变量必须是连续型(数值);
必须设置自变量,自变量可以是连续型(数值)也可以是离散型(名词)。
通过本任务的学习:
(1)能够构建 Bagging 集成学习算法模型对工业大数据进行分析。