原文地址
目录
1. 信息量
2. 信息熵
3. 相对熵(KL散度/KL divergence)
4. 交叉熵
5. 几个熵之间的关系
6. JS散度
7. Wasserstein距离
8. 总结
1. 信息量
事件发生的概率越小,信息量越大。
假设X是一个离散型随机变量,取值集合为
则定义事件的信息量为:
2. 信息熵
信息量的期望就是熵,假设事件X有n种可能,发生的概率为,那么该事件的熵H(X)为:
如果发生的事件只有两种可能性,那么熵的计算转化为下列式子:
3. 相对熵(KL散度/KL divergence)
相对熵又叫KL散度,也叫做信息增益,如果我们对于同一个随机变量X,有两个