决策树算法,这个算法的基础就是上面提到的奥卡姆剃刀原理,越是小型的决
策树越优于大的决策树,尽管如此,也不总是生成最小的树型结构,而是一个
启发式算法。
在信息论中,期望信息越小,那么信息增益就越大,从而纯度就越高。
ID3 算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益
最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策空间。
3. 信息熵与信息增益
在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信
息,带来的信息越多,该特征越重要。在认识信息增益之前,先来看看信息熵
的定义。
熵这个概念最早起源于物理学,在物理学中是用来度量一个热力学系统的
无序程度,而在信息学里面,熵是对不确定性的度量。在 1948 年,香农引入
了信息熵,将其定义为离散随机事件出现的概率,一个系统越是有序,信息熵
就越低,反之一个系统越是混乱,它的信息熵就越高。所以信息熵可以被认为
是系统有序化程度的一个度量。
假如一个随机变量 的取值为 ,每一种取到的
概率分别是 ,那么
的熵定义为
评论0