论文研究-基于改进贝叶斯决策的邮件过滤.pdf

所需积分/C币:9 2019-09-11 21:40:29 693KB .PDF
收藏 收藏
举报

探讨了基于概率阈值的贝叶斯邮件过滤模型的局限性:由于很少考虑所设定阈值的适用性和实用性,损失了一定的召回率。改进贝叶斯决策,提出了基于随机变量的较小错误分类决策方法;针对邮件处理的特殊性,进一步提出了基于随机变量的较小风险分类决策方法。实验结果表明,处理普通文本分类问题时,前者的分类决策效果更好;而后者在处理邮件问题时性能更优,能够在保持较小误判风险的同时,提高贝叶斯邮件过滤器的召回率以及F值。
l00 013,49(7) Computer Engineering and4 pplications计算机工程与应用 望相符;另外,不难发现该决策方法可使邮件分类结果貝性大;否则归为正常邮件的可能性大。通过对邮件分类特 有较大的邮件判对率T。 性的思考,当后验概峯小于等于12时,可直接将其归为正 仍然对任一封待分类邮件d(由于对后验概率小于12常邮件(即f(P)=0,其中P≤1/2)。针对后验概率大于12 的邮件决策方法与传统方法相同,现只考虑后验概率P大时的情况提出一种采用幂函数形式的决策函数f(P)=P 于1/2的情况)进行分析 其中P>1/2为邮件a1对应的后验概率,r为待定常数。设 (1)采用基于概率阈值的贝叶斯分类算法,设定阈值 f(P0)=P=1/2 则判定结果正确的概率为 将P0=0.9代入式(5),得r=lg00.5≈6.58,故 PxP(P:>Po)+(1-P)xP(P <Po) P)=P≈P (6) P,P1≥P0 显然式(6)满足f(0)=0及f(1)=1。同时对于后验概率为 1-P,P,Po 1/2的较特殊邮件,有f(12)=0.53≈0.01,即只有约1%的 (2)采用基于随机变量的较小错误分类决策方法,则可能被判为垃圾邮件,这也符合对于后验概率小于12的 判定结果正确的概率为 邮作的处理情况。 Po=P:+d-P: 4 由上,得到基于随机变量的分类决策函数f(P)图像, 将两种方法作比较,式(1)中取國值P为0.9,则两方 万如图3所示 法的决策性能(邮件判对率理论值)对比如图2(a)所示。 L.0 由图可以看出,与传统基于概率阈值的贝叶斯决策相比, 0).9 通常情况下后者在全部邮作判对率方面具有较为明显的 0.8 0.7—KP) 优势。 06 进一步分析,不难发现本节提出的决策方法的性能非 0.5 0.4 常接近于基于最小错误的贝叶斯决策(见图2(b))。称这 种决策方法为基于随机变量的较小错误分类决策。 1.0 l.0 0 0.9 后验慨率 08 8 图3基于随机变量的分类决策函数f(P)图像 0.5 得到决策函数f(P)后,就可以在进行分类决策时将 买0.4 0.3 0.3 邮件依概率f(P)归为Spam类,这与依概率P归为Spam 0.2 类,以及依P是否达到网值归为Spm类相比,具有更低的 决策风险。称这种决策方法为基于随机变量的较小风險 0.50.60.70.80.91.0 0.50.60.70.80.91.0 后验概率 后验概率 分类决策。 (a)P=0.9 (b)Pa=0.5 图2与贝叶斯决策法性能对比图 3实验验证 由图2可知,从理论上讲较之传统基」概率阈值的贝3.1实验安排 叶斯分类决策,夲节基于随机变量的较小错误分类决策除 实验采取两组对比:实验A采用当今主流的贝叶斯邮 了可使邮件分类的整体结果与数学期望相符,在决策分类件训练方法对邮件集进行训练,然后采用基于概率阈值的 正确率方面同样具有优势。 分类法进行分类决策。假设误判1封垃圾邮件相当于漏判 2.2.2基于随机变量的较小风险分类决策 9封正常邮件,选取09作为阈值使错误风險最小图。实验 考虑到邮件分类决策的特殊性:如将一封正常郎件误B采用同样的贝叶斯邮件训练方法对邮件集进行训练,然 判为垃圾邮件比漏判一封垃圾邮件代价更高。为降低分后分别采用本文提出的基于随机变量的较小错误决策方 类决策风险,进一步改进2.2.1小节提出的基于随机变量的法和基于随机变量的较小风险决策方法进行分类(分别记 分类决策。 为实验B-1和B-2) 假设误判1封垃圾邮作的代价等同于漏判9封垃圾邮 实验数据源有两个:(1) CCERT2,包含9272封正常 件的代价,则传统贝叶斯决策中设定國值P。=0.9%。而在邮件和2508村垃圾邮件,从屮随机抽取正常邮件和垃圾 基于随机变量的分类决策中,将该阈值对应到值1/2,其目邮件各4500封作为实验数据源;(2) CNLP-Platform3,包 的是:如果邮件后验概率达到P则归为垃圾邮件的可能含正常邮件和垃圾邮件各1500封,从中随机抽取正常邮 薛正元:基于改进贝叶斯决策的邮件过滤 2013,49(7)101 表2实验A与实验B性能指标比较 算法 数据源杏准率P/%)召回率R/(%)F值(%)判对率T/(% 数据溟1 99.86 实验A 数据源2 9947 93.7 实验B1数据源1 96.40 97.80 数据源2 6.83 97.77 9779 实验B2数据源1 99.35 95.51 97.39 数据源298979591974297.46 件和垃圾邮件各1200封作为实验数据源。两个数据源独因此,本文方法优于文献「1的方法。从邮件分类的特 立进行实验:将两个数据源分别平均分成5份,4份用于训殊性考虑,本文基于随机变量的较小风险分类决策方法更 练,1份用于测试,进行5重交叉实验,最后取5次实验平均适合于进行邮件分类决策。 值作为实验结果 表3本文实验结果与文献[1果对比 32实验结果与评价 算法风险因子登准率P%)召回率R/(%)判对率T(%) 采用4个评价指标:垃圾邮件查准率P、垃圾邮件召同 89,14 率R和F值、全部邮件判对率7。其中,查准率P等于判为文献[1]算法 k=1.38 90.14 k=1.70 98.89 垃圾邮件的邮件中实为垃圾邮件的比例,反映识别垃圾邮 l-2.00 9645 95.5 916 件的确性;石回率R等于实为垃圾邮件的邮件中判为垃圾 9.3: 本文算法 邮件的比例,反映识别垃圾邮件的完整性;F值-2PRA(P+R 98.97 95.91 9746 兼顾了查准率和召回率问题,是以上两个指标的综合;判 对率T等于所有待分类邮件被正确归类的邮件的比例,反 结束语 映正确归类邮件的能力 随杋变量的思想已经日趋成熟.但将随机变量应用 实验得出采用基于随机变量的分类决策方法(实验A)于分类决策的相关研究还比较罕见。本文通过对基于概 与采用基于随机变量的分类决策方法(实验R)性能指标 率阈值的贝叶斯垃圾邮件过滤模型进行理论探讨,提出 如表2所示;图表形式如图4所示。 用随机变量的思想代替概率國值的思想,并通过一定的 性能指标进行实验验证。实验结果表明,较之当今基于 数据源1 数据源2 100 100 概率國值的贝叶斯邮件过滤技术,在分类决策时引入“随 机变量”的思想将会在一定程度上提高火叶斯过滤器的 S器 分类性能 94 考虑到邮件分类的特殊性,本文提出的基」随机变量 口实验A世 口实验A 的较小风险分类决策方法更适合」进行邮件分类决策;而 实验B-192 囹实验B-1 口实验B-2 口实验B2对于普通的文本二分类问题,利用本文提出的基于随机变 PRF7量的较小错误分类决策方法将可能是个更好的选择。同 图4实验A与实验B性能指标比较图 时,考虑到有限的实验邮件集难以具有良好的数据完备 由图可知,本文提出的基于随机变量的分类决策方性,本文基于随机变量的分类决策思想在“普适性”方面还 法相对于当今主流的贝叶斯决策有了一定程度的性能提有待进行更深入的研究。相信随着研究的深入,基于随机 升:实验A中虽具有稍高的查准率P,但召回率指标R不佳;变量的分类决策思想将有更广阔的应用前景。 实验B-1具有较高的判对率T,因此对于普通的文本分类问 题,利用这科基于随机变量的较小错误分类决策方法将可参考文献 能是个更好的选择;实验B2中查准率P稍低,但其召回率1中国互联网协会反垃圾郾件中心BCOL201.05-18p R、判对率r和综合指标F值均较好,同时不难验证其在误 iwww.anti-spam.Cn, 判风险方面显著优于实验B1,而与设定阈值P=0.9的当12] Cormack G Lmail spam filtering; a systematic review[M Foundations and Trends in Information Retrieval.[S.I. ] Now 今主流的贝叶斯决策风险相差无几。 Publishers Inc.2008 将本文基于随机变量的较小风险分类决策结果与文 [3]王斌,潘文锋基丁内容的垃圾邮件过滤技术综述中文信息 献[1提出的最小风险贝叶斯算法结果作比较,可见本文 学报,2005,19(5):1-10. 各指标均略高于文献[11]中各指标约2至3个百分点,如表3 (下转125页)

...展开详情
试读 4P 论文研究-基于改进贝叶斯决策的邮件过滤.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    img
    • 至尊王者

      成功上传501个资源即可获取

    关注 私信 TA的资源

    上传资源赚积分,得勋章
    最新推荐
    论文研究-基于改进贝叶斯决策的邮件过滤.pdf 9积分/C币 立即下载
    1/4
    论文研究-基于改进贝叶斯决策的邮件过滤.pdf第1页
    论文研究-基于改进贝叶斯决策的邮件过滤.pdf第2页

    试读已结束,剩余2页未读...

    9积分/C币 立即下载 >