2010年第 lO期
计 算 机 与 现 代 化
JISUANJI YU XIANDAIHUA 总第 182期
文章编号 :1006-2475(2OLO)10-0125-04
一
种改进 的贝叶斯 邮件过滤算法
夏 。超 ,徐德华
(同济大学经济与管理学院 ,上 海 200092)
摘要 :贝叶斯过滤算法是反 垃圾 邮件 过滤技术 中应用最为广泛 的方法之 一。考虑 到邮件 的错 误分 类对 邮件接 收者 带来
的损 失不同,引入 判定垃圾 邮件是 判定正常邮件的 倍作 为最终邮件 分类依据 ;同时,为 了提高 贝叶斯过 滤算法的 分类
质量 ,运用遗传算法来对邮件 中正文和标题的特征词在邮件分 类 中不 同的重要 程度做 区分。最后 用 实际的邮件样本 对
改进后的算法进行验证,验证 结果表 明 ,利 用遗传 算法优 化配合 贝叶斯过 滤算法能有效提 高邮件分类的质量。
关键词 :贝叶斯 ;反垃圾邮件 ;遗传算法
中图分类 号:TP311 文献标识码 :A doi:10.3969/j.issn.1006-2475.2010.10.033
An Im proved Bayesian M ail Filtering Algorithm
XIA Chao,XU De—hua
(College of Economics and Management,Ton6i University,Shanghai 200092,China)
Abstract:Bayesian filtering algorithm is one of most widely used methods of an ti-spam filtering technology.Taking into account
the fact that the wrong classification of the mail causes different losses tO recipients,SO introducing a message that if judging as a
spam mail is times that of judging as a normal mail,it can conclude that this is a spam mail.Meanwhile,in order to improve
the quality of classification,the paper uses genetic algorithm tO distinguish between tokens in the body and tokens in the subject.
Finally,using the sample to validate the improved algorithm,the result shows that using new algorithm Can improve the quality of
the message classification.
Key words:Bayesian ;an ti—spain mail;genetic algorithm
0 引 言
2009年 l2月 ,思科 公 司发 布 了 《年度 安全 报
告》。思科在报告中表示 ,由于黑客不断想 出控制用
户计算机 的新途 径 ,被 控制 的计算机 发送 了大量垃圾
邮件 ,垃圾邮件约占 90%。几天后 的 McAfee研究结
果显示 ,垃圾邮件 是超大 的“碳 ”制 造 机。另外 ,垃圾
邮件通常都可能携带危险的病毒、蠕虫 ,严重地威胁
着用户电脑 的硬盘 ;大批 量 的垃圾 邮件能使 邮箱堵
塞 ,使得 电脑网络速度大幅下降 ,影响 电子邮箱的工
作效率 ;对通信机构来说 ,大量的垃圾 邮件使它们必
须大幅度提高计算机性能以维持邮件服 务器 的正常
运行 。毫无疑问,目前垃圾邮件已经成为全球互联网
治理工作的重点¨ 。
反垃圾 邮件方法是试 图来 减少 垃圾 邮件 问 题 和
处理安全 需求 ,通 过 正 确地识别 垃 圾 邮件 、邮件病 毒
或者邮件攻 击程 序 等减 少 垃圾邮件 。这些解 决 方 法
采取多种安 全途 径 来努 力 阻止垃圾 邮件。反 垃圾 邮
件技术中最 流行 的是 过 滤技术 ,主要 有黑名单 、白名
单、基 于规则的过滤和基于内容的过滤。黑名单和白
名单指的是已知的垃圾 邮件发送者或可信任 的发送
者的 IP地址 。基于规则 的过滤 根 据 某 些特征 (比如
单词、词组 、位置、大小 等)来形成规则 ,通过这些 规
则来描述垃圾邮件 。显然 ,这些方法的主观性会造成
大量正常邮件的误判和垃圾 邮件 的漏判 J。本文采
用的基于贝叶斯过滤算法是内容过滤的一种。
1 贝叶斯过滤算 法
收稿 日期 :2010-08.12
基金项 目 :国家 自然科学基金资助项 目(70971099)
作者简介 :夏超 (1986-),男 ,浙江 舟 山人 ,同济 大学 经济 与管 理 学院 硕 士研 究 生 ,研究 方 向 :数 据挖 掘 ,文本 挖 掘 ;徐 德华
(1967-),男 ,副研究员 ,博 士 ,研 究方 向:数据仓库与数据挖 掘 ,SOA,移动商务 。