【免费】第5章集成学习2(1)1资源-CSDN文库

需积分: 0 110 浏览量 2022-08-03 14:11:07 上传评论收藏 145KB PDF 举报

集成学习是一种强大的机器学习策略，它通过结合多个学习算法或模型的预测来提高整体的预测性能。这个概念的核心思想是“多样性与准确性”的结合，即利用多个不同的学习算法或者同一种算法的不同实例，通过某种策略整合它们的预测结果，从而得到比单个模型更稳定、更准确的预测。在《第5章集成学习2》中，我们关注的是集成学习的理论和应用。首先，集成学习并非一种全新的数据挖掘算法，而是建立在已有的算法基础上，通过并行或串行的方式进行整合，从而实现性能提升。选项A正确，选项B和C错误。集成学习既可以采取并行方式，如Bagging，也可以是串行方式，如Boosting。 Bootstrap采样是集成学习中常用的一种技术，尤其在Bagging中。Bootstrap采样是通过有放回地从原始样本集中抽取样本来创建新的训练集，确保新训练集的大小与原始样本集相同。因此，选项A正确，B错误。由于是“有放回”采样，所以原始数据出现在新训练集中是可能多次的，C选项表述不准确。 AdaBoost是Boosting方法的一个典型代表，其核心参数`α`与模型的错误率有关。在AdaBoost中，每个迭代都会根据上一轮的分类错误率调整样本权重，使得下一次迭代更关注之前的弱分类器处理不佳的样本。因此，选项D（没有具体的数值）无法直接判断其正确性，但我们可以理解`α`与错误率成反比，通常在(0,1)之间。 Bagging（Bootstrap Aggregating）的主要特点是：基础分类器并行生成，A选项正确；各基础分类器权重相同，B选项正确；并且基于Bootstrap采样生成训练集，D选项正确。尽管理论上较少的基础分类器可以实现Bagging，但在实际应用中，往往需要较多的分类器来获得更好的泛化能力，所以C选项并不准确。 AdaBoost的特性包括：可以构建出训练误差非常低的分类器，A选项正确；基础分类器只需要非常弱的分类能力（优于随机猜测），B选项正确；通过改变样本权重达到影响训练集的效果，C选项正确；而被当前基础分类器误分类的样本权重会增加，而不是减小，所以D选项错误。在决策树构建中，属性选择的方法多种多样，包括信息增益、信息增益率、GINI系数等，这些都是衡量特征重要性的指标，但信息值并不是一个标准的决策树属性选择方法，所以A选项错误，B、C、D选项正确。综上所述，集成学习是通过结合多个模型的预测来增强学习性能的技术，它可以分为并行的Bagging和串行的Boosting等多种策略。在这些策略中，Bootstrap采样、AdaBoost和决策树的属性选择都是重要的概念。理解并掌握这些知识点对于提升机器学习模型的性能至关重要。

资源详情

资源评论

资源推荐