垃圾邮件识别的智能算法
引言:随着互联网的发展和普及,电子邮件已经成为人们一个互相交流,获取咨询的重要渠
道。但伴随着信息技术的发展垃圾邮件也给人们带来了诸多的危害。随着人们对于垃圾邮件
危害的重视以及人工智能的发展,检测垃圾邮件的智能算法也越来越多,但垃圾邮件制造者
也不断的改进垃圾邮件以逃避这些算法的检测,本文介绍几种常见的垃圾邮件的检测方法。
一.垃圾邮件的分类
垃圾邮件主要可分为文本类垃圾邮件和图像类垃圾邮件。文本类垃圾邮件是较为传统的
垃圾邮件,文本内容包含各种广告、产品推销、赌博、色情内容,为了规避算法的检测,邮
件发布者一般会采用中文片段夹杂着符号英文,甚至中文采用繁体字来传达信息。如图 1.1。
图 1.1 文本垃圾邮件内容
图像垃圾邮件往往会在垃圾图像中嵌入很多的文本内容以达到某种宣传的目的。而为了
逃避基于文字提取技术的垃圾邮件过滤系统的检测,垃圾图像中会加入很多随机噪声干扰,
而且垃圾图像中往往表现出很高的相似性。由于相似的垃圾图像经常来源于相同的垃圾图像
模板,基于一个模板产生大量相似的垃圾图像,并且在这些图像中加入各种各样的噪声干扰,
因此利用近似复制方法产生垃圾图像是垃圾制造者最常使用的方法。垃圾图像中往往含有大
量宣传的文字,但是正常图像往往不含或者含少量的文字内容。如图 1.2 所示。虽然垃圾图
像中的内容还是原来文本型垃圾邮件所包含的垃圾信息,但是这样的方法利用到文本类垃圾
邮件过滤器的漏洞。
图 1.2 垃圾图像邮件