集成学习:机器学习兵器谱的“屠龙刀”
发表于 2015-03-02 14:55
http://www.csdn.net/article/2015-03-
02/2824069
摘要:文章介绍了集成学习的概念和它的发展,它有 RF 和 GBDT 两大杀器,它有嫁接法、
集成半监督学习的最新进展能够提升学习效果,文章还着重分析了集成学习成功的关键。
编者按:目前机器学习领域诞生的多种算法并不见得都有很好的实战效果。本文作者认为,
集成学习是一种立竿见影、从不过时的方法,堪称机器学习兵器谱上排名第一的“屠龙刀”。
作者在文章中介绍了集成学习的概念和发展,它有 RF 和 GBDT 两大杀器,着重讲解了嫁
接法、集成半监督学习等最新进展,以及集成学习成功的关键。
机器学习是一个大武林,这里面江湖人士颇多,“发明”出来的算法兵器也是五花八门,浩瀚
如海,足够你数上三天两夜了。然而,这些兵器行走江湖能用的不多,真正无敌的更是屈指
可数,或许只有屠龙刀倚天剑了。正如江湖传言:武林至尊,宝刀屠龙,号令天下,莫敢不
从,倚天不出,谁与争锋? 机器学习中还真有这么一把屠龙刀、一把倚天剑。用上了这两
样兵器,保你平平安安闯四方,潇潇洒洒走江湖。今天,就先絮叨絮叨这把屠龙刀。
在下以为,集成学习就是这把屠龙刀。为什么集成学习能称为“屠龙刀”呢?因为它立竿见影,
好像“刀过竹解”;因为它从不过时,俨然“宝刀未老”。它是一把刀,但不是一把普通的刀;
它是一把锋利的刀,一把可以屠龙的刀。集成学习在众多的机器学习/数据挖掘竞赛中往往
探囊取物,屡试不爽,像屠龙刀一样当之无愧排行兵器谱第一。
什么是集成学习
什么是集成学习呢?通俗的讲,就是多算法融合。它的思想相当简单直接,以至于用一句俗
语就可以完美概括:三个臭皮匠,顶个诸葛亮。实际操作中,集成学习把大大小小的多种算
法融合在一起,共同协作来解决一个问题。这些算法可以是不同的算法,也可以是相同的算
法。对于前者,效果一般也不差,但出发点实在过于简单粗暴,简直就是一介武夫,就不过
多介绍了。这里着重谈一下如何使用同一个算法进行集成学习(虽然只关注这个话题,但里
面很多思想对前者也是适用的)。