【免费】6.集成学习1资源-CSDN文库

集成学习

需积分: 0 43 浏览量 2022-08-03 14:53:30 上传评论收藏 1.3MB PDF 举报

资源详情

资源评论

资源推荐

2022/4/27 6_ensemble_learning

huaxiaozhuan.com/统计学习/chapters/6_ensemble_learning.html 1/14

集成学习

集成学习 ensemble learning 是通过构建并结合多个学习器来完成学习任务。其一般结构为：

先产生一组

“

个体学习器

”

（ individual learner

)

。个体学习器通常由一种或者多种现有的学习算法从

训练数据中产生。

如果个体学习器都是从某一种学习算法从训练数据中产生，则称这样的集成学习是同质的

homogenerous 。

此时的个体学习器也称作基学习器 base learner ，相应的学习算法称作基学习算法。

如果个体学习器是从某几种学习算法从训练数据中产生，则称这样的集成学习是异质的

heterogenous

。

再使用某种策略将它们结合起来。集成学习通过将多个学习器进行组合，通常可以获得比单一学习器显

著优越的泛化性能。

通常选取个体学习器的准则是：

个体学习器要有一定的准确性，预测能力不能太差。

个体学习器之间要有多样性，即学习器之间要有差异。

通常基于实际考虑，往往使用预测能力较强的个体学习器（即强学习器，与之对应的为弱学习器）。

强学习器的一个显著的好处就是可以使用较少数量的个体学习器来集成就可以获得很好的效果。

根据个体学习器的生成方式，目前的集成学习方法大概可以分作两类：

个体学习器之间存在强依赖关系、必须串行生成的序列化方法，每一轮迭代产生一个个体学习器。其中

以 Boosting 为代表。

个体学习器之间不存在强依赖关系、可同时生成的并行化方法。其中以 Bagging 和随机森林 Random

Forest 为代表。

一、集成学习误差

考虑一个二类分类问题。设单个样本为

，真实类别为

。

假定基类分类器的错误率为

，即对每个基分类器

有：

。

假设集成学习通过简单投票法结合

个基分类器

。即：若有超过半数的基分类器正

确，则集成分类就正确。根据描述，给出集成学习器为：

。

集成学习器预测错误的条件为：

个基分类器预测正确，其中

（即：少于一半的基分类器

预测正确），

个基分类器预测错误。

假设基分类器的错误率相互独立，则集成学习器预测错误的概率为：

。

根据 Hoeffding 不等式有：

。

可以看出：随着

，

集成学习器预测错误的概率

。

上述推论有非常关键的一个地方：假设基分类器的错误率相互独立。

实际上个体学习器是为了解决同一个问题训练出来的，而且可能是同一类算法从同一个训练集中产生。

这样个体学习器的错误率显然不能相互独立。

2022/4/27 6_ensemble_learning

huaxiaozhuan.com/统计学习/chapters/6_ensemble_learning.html 2/14

实际上个体学习器的准确性和多样性本身就存在冲突。

通常个体学习器的准确性很高之后，要增加多样性就需要牺牲准确性。

实际上如何产生并结合

”

好而不同

“

的个体学习器就是集成学习研究的核心。

二、

Boosting

提升方法

(

boosting

)

是一种常用的统计学习方法。在分类问题中，它通过改变训练样本的权重学习多个分类

器，并将这些分类器们进行线性组合来提高分类的能力。

提升方法的基本思想是：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其

中任何一个专家单独的判断要好。类似于

”

三个臭皮匠顶一个诸葛亮

“

。

提升方法的理论基础是：强可学习与弱可学习是等价的。

在概率近似正确（ probably approximately correct,PAC ）学习的框架下：

强可学习：一个概念（或一个类别），若存在一个多项式的学习算法能够学习它并且正确率很高，那么

称这个概念是强可学习的。

弱可学习：一个概念（或一个类别），若存在一个多项式的学习算法能够学习它，学习的正确率仅比随

机猜测略好，那么称这个概念是弱可学习的。

可以证明：强可学习与弱可学习是等价的。

即：若在学习中发现了

”

弱学习算法

“

，则可以通过某些办法将它提升为

”

强学习算法

“

。

对于分类问题而言，求一个比较粗糙的分类规则（弱分类器）要比求精确的分类规则（强分类器）要容易得

多。

Boosting

就是一族可以将弱学习器提升为强学习器的算法。

这族算法的工作原理类似：

先从初始训练集训练出一个基学习器。

再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关

注。

然后基于调整后的样本分布来训练下一个基学习器。

如此重复，直到基学习器数量达到事先指定的值 M

。

最终将这 M 个基学习器进行加权组合。

2.1 AdaBoost

算法

Boosting 族算法最著名的代表是 AdaBoost 算法。

AdaBoot 算法两个核心步骤：

每一轮中如何改变训练数据的权值？

AdaBoost 算法提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。

于是那些没有得到正确分类的数据由于权值的加大而受到后一轮的弱分类器的更大关注。

最后如何将一系列弱分类器组合成一个强分类器？

AdaBoost

采用加权多数表决的方法：

加大分类误差率较小的弱分类器的权值，使得它在表决中起较大作用。

减小分类误差率较大的弱分类器的权值，使得它在表决中起较小的作用。

AdaBoost 算法有两个特点：

剩余13页未读，继续阅读

评论收藏

内容反馈

熊比哒

粉丝: 29
资源: 292

6.集成学习1

评论0

最新资源

6.集成学习1

评论0

大数据学习笔记.pdf

Visual C++ 6.0专业便携版，亲测Win10 1803可用

[Visual.Basic.2010.入门经典(第6版)].Thearon.Willi等.扫描版（1/2）

《DSP集成开发环境CCS开发指南》PDF版本 .pdf

6集成运算放大器学习教案.pptx

AI人工智能学习 一、算法基础：机器学习 1.matplotlib 2.numpy 3.pandas 4.seaborn

6集成运算放大器学习课程.pptx

CHAPTER6模拟集成电路PPT学习教案.pptx

集成学习介绍6--方祖亮.pdf

机械学习的知识点文档

Visual C++ 6.0 专业便携版

6集成运算放大器PPT学习教案.pptx

VC6 SP6 Plus 2011/02/12 (Part 4 of 4)

VC6 SP6 Plus 2011/02/12 (Part 2 of 4)

中级系统集成项目管理工程视频.zip

VC6 SP6 Plus 2011/02/12 (Part 3 of 4)

集成学习环境(C语言)

精通WindowsAPI.pdf

Workbench3.0 VXWORKS 6.X 环境使用学习

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

现代永磁同步电机控制原理及MATLAB仿真__袁雷编著1

全面的安全基线核查清单

OpenVAS离线资源

最新资源

AI人工智能学习一、算法基础：机器学习 1.matplotlib 2.numpy 3.pandas 4.seaborn