Chapter4 决策决策树
1. 基本流程
显然,决策树的生成是一个递归过程.在决策树基本算法中,有三种情形会
导致递归返回:( 1 )当前结点包含的样本全属于同一类别,无需划分;( 2 )当前
属性集为空,或是所有样本在所有属性上取值相同,无法划分;( 3 )当前结点包
含的样本集合为空,不能划分.
在第⑵种情形下,我们把当前结点标记为叶结点,并将其类别设定为该结
点所含样本最多的类别;在第⑶种情形下,同样把当前结点标记为叶结点,但
将其类别设定为其父结点所含样本最多的类别.注意这两种情形的处理实质不
同:情形⑵是在利用当前结点的后验分布,而情形⑶则是把父结点的样本分布
作为当前结点的先验分布.
决策树学习的关键是第8 行,即如何选择最优划分属性
2. 划分选择
• 信息增益
定义信息熵