朴素贝叶斯分类
一、朴素贝叶斯法原理
1.基本原理
朴素贝叶斯法是一种基础分类算法,它的核心是贝叶斯定理+条件独立性假设。贝叶斯
定理描述的是两个条件概率之间的关系,对两个事件 A 和 B,由乘法法则易知
贝叶斯定理就是对这个关系式的变形,即
若把样本特征和类别作为对应的条件和条件概率,则贝叶斯定理可以用来解决分类问题。
如对样本
,所属类别为,那么该特征下对应该类别的概率代入贝叶斯公
式就是
=
贝叶斯分类法的思想就是计算样本特征对应于各类别的概率,以概率最大的作为分类输
出。分母部分是特征的联合概率,可以进一步由全概率公式展开;分子部分由于含复杂的条
件概率,使得直接的计算较复杂,因此这里做一个条件独立性假设,即认为样本的各维特征
间是相互独立的,这是一个较强的假设,朴素贝叶斯也由此得名。在该条件之下,分子便可
化为
注意到,在用于分类决策时,分母部分的值对于所有的类别都是相同的,要找出最大概
率对应的类别,只考察分子即可。因此,朴素贝叶斯分类器表示为
2.平滑处理
在离散特征的情形之下进行分类输出的概率计算,可能会出现概率为 0 的情况,如随机
变量观测值的某一维并未在训练集中出现,那么它所属的条件概率为 0,致使对应类别的后
验概率为 0,从而使分类产生偏差,这是不合理的,因此需进行一定的平滑处理。具体,就
是在频率计算时,对每组统计的频数加上一个常数。
先验概率:
条件概率:
当 时,称为拉普拉斯平滑(Laplace smoothing)。