![](https://csdnimg.cn/release/download_crawler_static/87384070/bg3.jpg)
信息增益的问题
它偏向于具有大量值的属性。
在训练集中,某个属性所取的不同值的个数越多,那么越有可能拿它来作为分裂属性。
例如一个训练集中有10个元组,对于某一个属相A,它分别取1-10这十个数,如果对
A进行分裂将会分成10个类,那么对于每一个类Ent(Dj)=0,从而Info
A
(Dj)为0,该属
性划分所得到的信息增益最大,但是很显然,这种划分没有意义。
信息增益:原来的信息需求(即仅基于类比例)与新需求(即对A划分之
后得到的)之间的差:
Gain(D,a)=Ent(D)-Info
a
(D
v
)