基于 ASP 的反垃圾邮件管理系统的设计
随着 Internet 的迅速普及,电子邮件以其快捷、方便、低成本的特点逐渐
成为人们进行信息交流的主要媒介之一,但是随之而来的垃圾邮件也越来越泛滥。
垃圾邮件占用了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影
响和干扰了用户的正常工作、生活和学习。如何有效地治理垃圾邮件是全世界共
同面临的一道难题,也是互连网上目前有待解决的问题。本文首先介绍了电子邮
件对人们日常生活的重要性,然后概要介绍了反垃圾邮件技术的发展历史。研究
了三种过滤垃圾邮件的方法,分别是黑白名单技术、主题关键字过滤技术和贝叶
斯策略,对这三种技术的设计方法做了说明,重点介绍了贝叶斯过滤技术的设计
原理和实现步骤。最后总结了这几种过滤技术的不足之处和设计中遇到的难点问
题。
电子邮件;垃圾邮件;黑白名单;主题关键字;贝叶斯
Design of anti-spam mail management system based on ASP
Abstract
With the rapid development of internet, the technology of email is used widely in
people's daily life. However, the occurrence of more and more spam emails is
annoying to user, which causes the great waste of user's time, money as well as
network bandwidth. And what's worst, it can be harmful to users. It affects and
interferes with the user's normal work, life and studying. How to deal with spam
emails effectively, that is a common difficult problem for all over the world. In the
current Internet it is a problem for waiting for us to resolve. At first this paper
introduces the e-mail's importance for people's daily life. Then it introduces simply
development history of the anti-spam technology and researches three of spam
filtering methods, they are black and white list technology, subject keyword filtering
technology and bayesian strategy. Then the designing methods of three kinds of
technology are introduced. Focusing on the bayesian filtering technology, this paper
introduces its designing principle and implementation's steps. Finally I sums up some
shortcomings of several kinds of filtering technology and some difficult problems in
designing.
Key words: email; spam email; black and white list; subject keyword;
bayesian
目 录
总页数:22 页
1 引言 .....................................................................1
1.1 课题背景...............................................................1
1.2 开发概述...............................................................1
1.2.1 电子邮件概述 ........................................................1
1.2.2 反垃圾概述 ..........................................................2
2 电子邮件的工作原理 .......................................................2
2.1 电子邮件的结构.........................................................2
2.2 电子邮件的传输.........................................................3
3 需求分析 .................................................................3
3.1 数据库需求分析.........................................................3
3.2 开发环境需求...........................................................5
4 系统功能和技术描述 .......................................................6
4.1 系统功能模块设计.......................................................6
4.2 基本功能 ...............................................................6
4.3 黑白名单技术 ...........................................................7
4.4 关键字过滤技术.........................................................7
4.5 贝叶斯过滤技术.........................................................8
4.5.1 贝叶斯过滤算法的基本步骤 ............................................8
4.5.2 贝叶斯过滤算法举例 ..................................................9
4.5.3 贝叶斯过滤模块划分 .................................................10
5 系统工作流程和详细设计 ..................................................11
5.1 系统工作流程图........................................................11
5.2 邮件统计设计 ..........................................................11
5.3 收件夹设计 ............................................................12
5.4 反垃圾功能设计 ........................................................13
5.4.1 黑白名单过滤 .......................................................13
5.4.2 主题关键字过滤 .....................................................14
5.4.3 贝叶斯过滤 .........................................................15
5.4.4 过滤参数设置 .......................................................17
6 测试与分析 ..............................................................17
6.1 系统测试 ..............................................................17
6.2 设计中的难点问题 ......................................................18
6.3 三种过滤技术分析 ......................................................19
6.4 通用模块分析 ..........................................................19
结 论 ....................................................................20
参考文献 ....................................................................20
致 谢 ....................................................................21
声 明 ....................................................................22
第 1 页 共 22 页
1 引言
1.1 课题背景
随着 Internet 的极度膨胀,给人们带来了大量的信息,电子邮件使人们感
受到快捷和方便,更已成为一种最快速经济的通信手段,但是互联网又是一个无
政府世界,有些人利用电子邮件肆意散发邮件广告,造成很多人的邮箱垃圾成堆,
有些人利用电子邮箱制造邮件炸弹,使电子邮件服务器瘫痪;更有甚者利用电子
邮件来传播病毒。如此种种给许多用户带来了无尽的困扰。因此对垃圾邮件进行
有效的过滤,已经成为了一个有重要意义的现实问题。目前,我国对垃圾邮件过
滤研究中语义分析和文本分类方面的技术还比较落后,导致国内很多大型的电子
邮件系统无法及时有效地发现和拒绝垃圾邮件,从而给用户造成巨大的伤害。更
为严重的是国外很多垃圾邮件制造者利用这一缺陷,通过中国的邮件服务器发送
垃圾邮件,致使很多国外 ISP 服务提供商封锁了中国邮件服务器的 IP 地址,给
中国用户造成很多精神和经济损失。随着中国经济与世界经济的关系日益紧密,
中外交流活动的逐渐增多,对外的电子邮件数量也急剧增加,如果中国电子邮件
由于垃圾邮件问题遭到全面封杀,必将会对国内企业和组织造成巨大影响,严重
组碍中国经济的发展。因此,对新的,可靠的垃圾邮件过滤技术的研究已经成为
一项紧迫任务。
1.2 开发概述
1.2.1 电子邮件概述
电子邮件表示通过电子通讯系统进行信件的书写、发送和接收。今天使用的
最多的通讯系统是互联网,同时电子邮件也是互联网上最受欢迎的功能之一。通
过电子邮件系统,您可以用非常低廉的价格,以非常快速的方式(几秒钟之内可
以发送到世界上任何你指定的目的地),与世界上任何一个角落的网络用户联络。
同时,您可以得到大量免费的新闻、专题邮件,并实现轻松的信息搜索。这是任
何传统的方式也无法相比的。正是由于电子邮件的使用简易、投递迅速、收费低
廉,易于保存、全球畅通无阻,使得电子邮件被广泛地应用,它使人们的交流方
式得到了极大的改变。每一个申请互联网帐号的用户都会有一个电子邮件地址。
它是一个很类似于用户家门牌号码的邮箱地址,或者更准确地说,相当于你在邮
局租用了一个信箱。因为传统的信件是由邮递员送到你的家门口,而电子邮件则
需要自己去查看信箱,只是您不用跨出家门一步。电子邮件来源于专有电子邮件
系统。早在互联网流行以前很久,电子邮件就已经存在了,是在主机-多终端的
主从式体系中从一台计算机终端向另一计算机终端传送文本信息的相对简单的
方法而发展起来的。