朴素贝叶斯算法学习笔记
一、朴素贝叶斯算法与分类问题
朴素贝叶斯算法是机器学习中的一种常用算法,它的基础是概率问题,分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。朴素贝叶斯算法的正确率据统计为82%,是一种比较简单且高效的算法。
在日常生活中,分类问题非常普遍,例如,你路上遇到一个女生,你会自动的想她是美女还是长相一般;在网上看到一些搞怪青年,你可能直接脱口而出“这就是个2B青年”,这其实就是你对他们的分类操作。
二、朴素贝叶斯分类方法--数学推导
贝叶斯公式:Pr(Y| X) = Pr(X | Y) x Pr(Y)/Pr(X) 是朴素贝叶斯算法的基础。贝叶斯公式可以用来计算某一对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
在朴素贝叶斯分类中,X 和 Y 是随机变量,P(Y|X)称为 Y 的后验概率(posterior probability),与之相对的,P(Y)称为 Y 的先验概率(prior probability)。贝叶斯公式的应用是非常广泛的,例如,在医疗诊断中,医生对病人进行诊断就是一个典型的分类过程。
三、朴素贝叶斯分类应用
朴素贝叶斯算法的应用非常广泛,例如,在电子邮件过滤和文本分类研究中,朴素贝叶斯算法可以用于对电子邮件进行分类,过滤出垃圾邮件。朴素贝叶斯算法也可以用于社交网络研究中,对社交网络中的用户进行分类。
在朴素贝叶斯算法的应用中,需要加入 Laplace 校准,对每个划分类别下计数加 1,防止出现 P(a|y)=0。同时,朴素贝叶斯算法也需要对特征属性进行处理,例如,对于离散的特征属性,统计训练样本中各个划分在每个类别中出现的频率即可用来估计 P(a|y)。对于连续的特征属性,通常假定其值服从正态分布,计算出训练样本中各个类别中此特征项划分的各均值和标准差,代入相关公式。
四、结论
朴素贝叶斯算法是一种非常简单且高效的算法,它的应用非常广泛,例如,在电子邮件过滤、文本分类、社交网络研究等领域。朴素贝叶斯算法的基础是概率问题,分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。