朴素贝叶斯法原理
【参考资料】
李航 《统计学习方法》
周志华 《机器学习》
1. 基本方法
设输入空间 ,输出空间为类标记集合 。训练数据集
由联合概率分布 独立同分布产生。
朴素贝叶斯法通过训练数据集来学习联合概率分布 。具体通过学习先验概率分布
以及条件概率分布
来学习联合概率分布 。
问题的难点在于条件概率分布 有指数量级的参数,估计参数较困难。假设某个具体的特征属性
的可能取值有 个, , 类别 的可能取值有 个,那么参数的个数为 。
为了削减参数,朴素贝叶斯法采用条件独立假设,这是一个很强的假设。具体地,条件独立性假设是:
即各个特征属性相互独立,不存在依赖关系,并且它们对分类的贡献都相同。
在条件独立性假设下,可以用贝叶斯公式来计算后验概率
这是朴素贝叶斯分类器的基本形式,可以进一步表示为
注意到上式中的分母对所有 都是相同的,所以
评论0