朴素贝叶斯分类工作过程如下:
1.每个数据样本用一个n 维特征向量X = {x1 , x2 ,..., xn}表示,描述由属性A1 ,
A2 ,..., An 对样本的n个度量。
2.假定有m 个类C1 ,C2 ,...,Cm 。给定一个未知的数据样本X(即,没有类标号),
分类法将预测X属于具有最高后验概率(条件X 下)的类。即,朴素贝叶斯分类将未知的样本分配给类Ci ,
当且仅当:P(Ci | X) > P(Cj | X) 1 ≤ j ≤ m j ≠ i.这样,我们最大化P(Ci | X) 。
其P(Ci | X)最大的类Ci 称为最大后验假定。根据贝叶斯定理 P(Ci | X) = P(X | Ci)*P(Ci)/P(X).
由于P(X) 对于所有类为常数,只需要P(X |Ci)*P(Ci)最大即可。如果类的先验概率未知,则通
常假定这些类是等概率的;即,P(C1 ) = P(C2 ) = ... = P(Cm )。并据此对只P(Ci | X) 最大化。否则,
我们最大化P(X |Ci )P(Ci ) 。注意,类的先验概率可以用P(Ci ) = si/s 计算;其中,si是类Ci
的训练样本数,而s是训练样本总数。
3.给定具有许多属性的数据集,计算P(X |Ci)的开销可能非常大。为降低计算P(X |Ci ) 的开销,
可以做类条件独立的朴素假定。给定样本的类标号,假定属性值条件地相互独立。即,在属性间,
不存在依赖关系。这样,P(X|Ci) = ΠP(xk|Ci) k=1...n, 而概率P(xk|Ci)可由训练样本估值,
其中有两种情况:(1):如果Ak是分类属性[离散属性],则P(xk|Ci) = Sik/Si,Sik为在属性Ak上具有值xk的
类Ci的训烈样本数,Si是类Ci的样本数。(2):如果是连续属性,则通常假定该属性服从高斯分布,不过可以
根据实际情况调整它的分布。因此
P(xk|Ci)=g(xk,mu(Ci),sigma(Ci))=sqrt(2*pi)*sigma(Ci)*exp( -(xk-mu(Ci))^2 / (2*sigma(Ci)^2) )
其中,mu(Ci),sigma(Ci)分别为均值和标准偏差,g(xk,mu(Ci),sigma(Ci))是属性Ak的高斯密度函数。
4.为对未知样本X分类,对每个类Ci,计算P(X |Ci)*P(Ci)。样本X被指派到类Ci,当且仅当:
P(X|Ci)*P(Ci) > P(X|Cj)*P(Cj) 1≤j≤m j ≠ i.换言之,X被指派到其P(X|Ci)*P(Ci)最大的类Ci。
- 1
- 2
- 3
前往页