没有合适的资源?快使用搜索试试~ 我知道了~
贝叶斯算法(bayesian)介绍
5星 · 超过95%的资源 需积分: 32 33 下载量 87 浏览量
2010-05-08
11:52:16
上传
评论
收藏 18KB DOCX 举报
温馨提示
试读
4页
贝叶斯是基于概率的一种算法,是Thomas Bayes:一位伟大的数学大师所创建的,目前此种算法用于过滤垃圾邮件得到了广泛地好评。贝叶斯过滤器是基于“自我学习”的智能技术,能够使自己适应垃圾邮件制造者的新把戏,同时为合法电子邮件提供保护。在智能邮件过滤技术中,贝叶斯(Bayesian)过滤技术取得了较大的成功,被越来越多地应用在反垃圾邮件的产品中。
资源推荐
资源详情
资源评论
贝叶斯算法(bayesian)介绍
贝叶斯是基于概率的一种算法,是 Thomas Bayes:一位伟大的数学大师所创建的,
目前此种算法用于过滤垃圾邮件得到了广泛地好评。贝叶斯过滤器是基于“自我学习”的智
能技术,能够使自己适应垃圾邮件制造者的新把戏,同时为合法电子邮件提供保护。在智
能邮件过滤技术中,贝叶斯(Bayesian)过滤技术取得了较大的成功,被越来越多地应用
在反垃圾邮件的产品中。
贝叶斯过滤算法的基本步骤
1. 收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集。
2. 提取邮件主题和邮件体中的独立字符串,例如 ABC32,¥234 等作为 TOKEN 串并统
计提取出的 TOKEN 串出现的次数即字频。按照上述的方法分别处理垃圾邮件集和非垃圾
邮件集中的所有邮件。
3. 每一个邮件集对应一个哈希表,hashtable_good 对应非垃圾邮件集而
hashtable_bad 对应垃圾邮件集。表中存储 TOKEN 串到字频的映射关系。
4. 计算每个哈希表中 TOKEN 串出现的概率 P=(某 TOKEN 串的字频)/(对应哈希表的
长度)
5. 综合考虑 hashtable_good 和 hashtable_bad,推断出当新来的邮件中出现某个
TOKEN 串时,该新邮件为垃圾邮件的概率。数学表达式为:
A 事件 ---- 邮件为垃圾邮件;
t1,t2 …….tn 代表 TOKEN 串
则 P ( A|ti )表示在邮件中出现 TOKEN 串 ti 时,该邮件为垃圾邮件的概率。
设
P1 ( ti ) = ( ti 在 hashtable_good 中的值)
P2 ( ti ) = ( ti 在 hashtable_ bad 中的值)
则 P ( A|ti ) =P2 ( ti ) /[ ( P1 ( ti ) +P2 ( ti ) ] ;
6. 建立新的哈希表 hashtable_probability 存储 TOKEN 串 ti 到 P(A|ti)的映射
7. 至此,垃圾邮件集和非垃圾邮件集的学习过程结束。根据建立的哈希表
资源评论
- xueye30002012-10-09很详细的讲解了贝叶斯算法,不错。
- liuzzi2011-10-17学习了,有些还是太深奥,继续充电,谢谢分享
andyTsing
- 粉丝: 4
- 资源: 65
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功