没有合适的资源?快使用搜索试试~ 我知道了~
第八章 集成学习8.1 个体与集成集成学习 (ensemble learning) 通过构建并结合多个学习器来完成学习任务, 有时也被称为多分类器系统、基于委员
资源详情
资源评论
资源推荐
第八章 集成学习
8.1 个体与集成
集成学习 (ensemble learning) 通过构建并结合多个学习器来完成学习任务, 有时也被称为多分类器系
统、基于委员会的学习等.
8.1.1 集成学习的基本概念和结构
个体学习器 (individual learner): 个体学习器通常由一个现有的学习算法从训练数据产生.
基学习器 (base learner): 若集成中只包含同种类型的个体学习器, 也即是"同质"的, 那么同质集成
中的个体学习器称为"基学习器". 相应的学习算法称为"基学习算法".
组件学习器 (component learner): 若集成中包含不同类型的个体学习器, 也即是"异质"的, 则此时
集成中的个体学习器称为"组件学习器", 或者直接称为个体学习器.
图 8.1 显示出集成学习的一般结构: 先产生一组"个体学习器" (individual learner), 再用某种策略将它们
结合起来.
8.1.2 集成学习的优势及个体学习器的选择原则
1 集成学习的优势
集成学习通过将多个学习器进行结合, 常可获得比单一学习器显著优越的泛化性能. 特别是对"弱学习器"
(弱学习器是指泛化性能略优于随机猜测的学习器) , 效果更加明显. 因此集成学习的很多理论研究都是针
对弱学习器进行的, 而基学习器有时也被直接称为弱学习器. 但实际中, 考虑到其他因素, 往往会使用比较
强的学习器.
2 个体学习器的选择原则
对于集成学习的个体学习器的选择来说, 要获得好的集成效果, 个体学习器应"好而不同", 具体含义是: 个
体学习器要有一定的"准确性", 即学习器不能太坏, 并且要有"多样性", 即学习器见具有差异.
8.1.3 集成学习错误率的数学表示
考虑二分类问题 和真实函数 , 假定基分类器的错误率为 , 即对每个基分类器 有
注1: 为 的真实标记, 而 为基分类器 对 的预测标记, .
假设集成通过简单投票法结合 个基分类器, 若有超过半数的基分类器正确, 则集成分类就正确:
注2: 对于二分类问题, , 则预测标记 , 如果有一半分类正确, 那么
, 则 , 即整体分类就正确,
其中, 函数是符号函数, 当 时, ; 当 时, ; 当
时,
为整体分类函数, 即集成分类
假设基分类器的错误率相互独立, 则由 Hoeffding 不等式可知, 集成错误率为
注3: 关于集成错误率的推导, 可根据 Hoeffding 不等式和课后习题进行推导, 此处略.
结论:
上式显示出, 随着集成中个体分类器数目 的增大, 集成的错误率将呈指数级下降, 最终趋向于零.
注意:
上面问题的分析是基于一个关键假设: 基学习器的误差相互独立
现实很难满足, 实际上, 个体学习器的"准确性"和"多样性"本身互为冲突, 此消彼长. 一般情况下, 准确性
很高之后, 要增加多样性就需牺牲准确性.
8.1.4 集成学习的分类
个体学习器间存在强依赖关系、必须串行生成的序列化方法, 代表是 Boosting
个体学习器间不存在强依赖关系、可同时生成的并行化方法, 代表是 Bagging 和"随机森林"
(Random Forest)
8.2 Boosting
8.2.1 Boosting 的基本概念
Boosting 是一族可将弱学习器提升为强学习器的算法 . 这族算法的工作机制类似于如下:
1. 先从初始训练集训练出一个基学习器
2. 再根据基学习器的表现对训练样本分布进行调整, 使得先前基学习器做错的训练样本在后续受到更
多关注
3. 然后基于调整后的样本分布来训练下一个基学习器
4. 如此重复进行, 直至基学习器数目达到事先指定的值 , 最终将这 个基学习器进行加权结合.
8.2.2 AdaBoost 算法的数学推导(加性模型)
Boosting 族算法最著名的代表是 AdaBoost , 其描述如图 8.3 所示, 其中, , 是真实函
数.
剩余14页未读,继续阅读
正版胡一星
- 粉丝: 18
- 资源: 304
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于matlab实现本份代码能对图像进行gabor滤波处理,结合指纹方向图以及指纹沟壑频率特性,对指纹图像进行增强.rar
- 基于matlab实现RBM神经网络实现了手写数字体识别的GUI程序.rar
- 基于matlab实现蝙蝠算法优化相关向量机建模对数据进行建模和预测.rar
- 基于matlab实现编写的禁忌搜索算法,解决了TSP问题,对初学者有重要的参考价值.rar
- 基于matlab实现SOH关于IMU进行姿态求解的C代码,里面包含了两套代码,分别是重力约束法求解和梯度下降法求解.rar
- 1_简单电子邮件客户端.zip
- 基于matlab实现powell优化搜索算法,适合于多参数优化且目标函数中不包含参数的情况.rar
- 基于matlab实现PID神经网络前向和反向学习算法的matlab的原程序代码.rar
- 基于matlab实现nsga-2的多目标优化算法,有注解.rar
- AIR-AP1815-K9-ME-8-5-182-0.zipFor 1815 1830 1840 1850 2700 3700
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0