【重版】朴素⻉叶斯与拣⻥的故事
原创
⼣⼩瑶
2017-04-11⼣⼩瑶的卖萌屋
重版公告
由于⼩⼣之后要讲的好⼏篇⽂章要基于这⼀篇的知识,但是以前写的的这篇⽂章对朴素⻉叶斯的讨论不够深⼊,⼜不值得再额外
写⼀篇朴素⻉叶斯啦,因此本⽂重版了以前的⽂章《朴素⻉叶斯》。与旧版相⽐,新版对基础知识的讲解进⾏了⼤幅更新,并加⼊了
⼀些更深的讨论和结论,并重新进⾏了排版。
朴素⻉叶斯分类器可以说是最经典的基于统计的机器学习模型了。⾸先,暂且不管⻉叶斯是什么意思,朴素这个
名字放在分类器中好像有所深意。
⼀查,发现这个分类器的英⽂是“Naïve Bayes”。Naïve(读作“哪义务”)即幼稚的、天真的(但是总不能叫“幼稚⻉
叶斯”阿),Bayes即⻉叶斯。那么这⾥的Naïve/朴素,是什么意思呢?其实就是代表着简化问题复杂度,像⼀个⼩
孩⼦⼀样,不考虑复杂的东西。
Naive
⼀句话描述Naïve的意思就是“特征独⽴性假设”。详细的说,这⾥的独⽴性假设⼀般是指“条件独⽴性假设“,但是
在处理序列问题时(⽐如⽂本分类、语⾳识别),还经常⽤到“位置独⽴性假设”,分别是什么意思呢?
条件独⽴性假设 {
如果我们要识别⼀个⼈的性别,要⽤到“⾝⾼”和“体重”这两个特征。所以这⾥的类别y为男/⼥,特征X=[x1=⾝⾼
x2=体重]。
我们知道,“⾝⾼”和“体重”明明是有关系的,⽐如⾝⾼1⽶8的⼈是不太可能体重低于100⽄的,但是在朴素⻉叶斯
分类器的眼⾥,⾝⾼和体重没有关系。即令 x1=⾝⾼为180cm , x2=体重为50kg ,则:
意思即⼀个⼈⾝⾼为180cm且体重为50kg的概率就等于⼀个⼈为180cm的概率乘以⼀个⼈为50kg的概率。虽
然⼀个⼈为180cm的概率很⼤(⽐如⼀个男孩⼦),⼀个⼈为50kg的概率也很⼤(⽐如⼀个⼥孩⼦),但是⼈的⾝
⾼为180cm且体重为50kg的概率很⼩。但是在⻉叶斯的条件独⽴性假设下,x1与x2相互独⽴,故是直接将
和 这两个⼤概率相乘的,故算出来的概率肯定远⼤于实际值。
总结,朴素⻉叶斯模型会假设特征向量的各个维度间相互独⽴(毫⽆关系)。即“条件独⽴性假设”。
}
位置独⽴性假设{
位置独⽴性假设⼀般不会提,但是如果要⽤朴素⻉叶斯模型解决序列化的分类问题时,就必须引⼊这个假设了。
位置独⽴性的意思是对于序列中各个位置的特征向量,完全忽略其位置信息。举个栗⼦,⽐如在⽂本挖掘中,“我|