论文研究-基于加权朴素贝叶斯的邮件过滤方法 .pdf

所需积分/C币:10 2019-08-23 13:36:03 606KB .PDF
收藏 收藏
举报

基于加权朴素贝叶斯的邮件过滤方法,王辉,黄自威,通过对内容邮件过滤技术中MI特征提取算法研究,结合朴素贝叶斯分类算法,本文提出了特征项区分度的概念,深入分析特征项在分类中�
山国武技记文在 然后取值最人的个特征项 构成向量空间,记为 于任意给定的邮件,对应的特征向量为 ,其中 分别代表特征项 所取的值。 分类器 垃圾邮件过滤本质上是一个二元分类的问题,即通过一定的方式将邮件归入对应的类别 正常邮件或垃圾邮件;在 分类器中,利用贝叶斯公式可以判断任意邮件 有最大可能性的归属类,其中 )是极大后验,表 示最大可能假设;表示邮件的类,代表垃圾邮件,代表正常邮件;表示如下 基于所谓的条件独立性假设,因此,可以将不方便直接计算的概率分布 通过卜面的公式进行计算 根据公式,公式可变形为: 在给定样本空间的情况下,固定不变,因此,公式可进步转化为: 基于特征项区分度的 分类模型 特征项区分度 在实际应用中,条件独立性假设往往并不成立,其原因在于不同特征项对两类邮件的代 表性通常存在差异,这种差异越大,特征项对两类邮件的区分能力越强,相应地该特征项在 分类过程中也就越亘要。 特征项对两类邮件代表性的差异主要体现在两个方面:词频方面,各个特征项在两 类邮件中出现的频窣通常并不相同,在某类邮件中出现频率越高,说明它对该类邮件的代表 性越强,文档频次方面,首先,对某特定的特征项而言,两类邮件中包含该特征项的邮 件数通常并不相同:其次,特征项在某特定类中的分布情况通常也并不相同。某类邮件包含 某特征项的邮件数越多,在该类邮件中分布越均匀,则对该类的代表性越强。 综上所述,特征项在分类过程中的区分能力可以从词频和文档频次两个方面加以论述。 词频方面,引入词频类间集中度差异因子对特征项在不同类中的集中程度进行描述,其 计算公式如下: 山国武技记文在 其中表示邮件的类别;表示在特征项在类中出现的次数 文档频次方面,引入文档频次分布因子对特征项所对应的文档频次在类内的集中程 度和在类间的离散程度进行描述,其计算公式如下 其中,表示类中包含特征项的邮件数量表示中包含邮件的总数量;的 前半部分表示文档频次在类内的集中程度,而后半部分表示文档频次在在类间的离散程度。 通过公式和公式定义区分度表示特征项在分类过程中的区分能力,计算 公式如下: 基于特征项区分度和互信息的特征提取 传统的算法通过公式计算特征项与所有类互信息佶的和,并以此为度量标准,选 取排序靠前的个特征项作为特征项库。但是公式可以对特征项与类之间的相关性进行 度量,却无法描述出特征项在分类过程中区分能力之间的差异。仅仅以此作为度量标准,并 不完全可靠,举例如下: 假设有两个特征项 且 则在特征提取阶段排名靠前,更有可能被 选定为特征项库的一员。但是如果与两类的互信息值相差不大,甚至完全相等,说明特征 项与两类之间均具有较强的相关性,在分类过程中,对两类邮件的区分能力较差;而 与两类的工信息值差异较大,说明与某类邮件的相关性要强于另一类,在分类过程中对两 类邮件的区分能力较强。此时,应该选择值较小但是区分能力较强的作为特征项库的 成员 基于上述分析,本文提出一种改进的特征提取算法,对可信息和区分度加以综合考虑, 选择在两方面均表现优异且具有最佳均衡性的特征项构建特征项库。 首先对算法中使用到的相关参数进行定义, 表示对区分度排序或互信息排序进 行搜索的函数,表示搜索的对象,表示搜索的范围,函数返回值为搜索的对象中排序 位冒在内的特征项;表示初始特征项集:表示删除较差特征项后,得到的剩余特征 项集 表示被删除特征项组成特征项集 表示特征提取过程 中得到的特征项子集;表示最终的特征项库 改进后的特征提取算法如下 从中删除区分度排序和互信息排序都在最后的特征项,分别得到,。 遵照区分度排序和互信息排序均最优的原则,迭代提取中的部分特征项组成 特征项子集 ,它们的优先级依次递减。 ≠正 ≤ ≠正E ≠E 山国武技记文在 从优先级最高的中随机选择一个特征项添加到中并在训练样本集上检测分 类器性能,若分类性能有所提高,则将该特征项作为的成员;若分类性能不变或有所 降,则将该特征项归入次优特征项了集中。之后重复执行该动作,对中其他特征项进 行筛选。 按照 的筛选方法,从次优特征项子集开始,依次对各特征项子集进行迭 代筛选。 在筛选过程中,如果某特征项连续五次落入下一级特征项子集中,将归入;如果 连续五次出现某特征项子集的全体成员落入下一级特征项子集中,迭代结束 作为最 终特征项库,完成特征提取。 基于特征项区分度的加权 分类器 基于条件独立性假设, 分类器默认各个特征项在分类过程中具有相同的重 要性,并不考虑特征项区分能力之间的差异,这不仅会影响最终的分类准确性,在某些情况 下甚至会导致分类器无法对邮件进行正常判断,进而影响分类效率。举例如下:假定特征项 库中各特征项的条件概率如表1所示, 表特征项条件概率表 特征项 则邮件属于垃圾邮件的最大似然估计为 邮件属于正常邮件的最大似然估计为 此时邮件属于和的可能性完全相同, 分类器无法将邮件归类于任 何一类邮件,分类失败。针对这一缺陷,本文根据各个特征项区分度之间的差异,为每个特 征项赋予不同的权值,将朴素贝叶斯 扩展为加权朴素贝叶斯 如下所示: O 其中,表示特征项在分类过程中区分能力的权重,的大小通过特征项的区分度进 行计算,即 通过公式13)可以判断出任意邮件一….}只有最大可能的归属类,但基于最小 风险策略,设定风险因了,定义公式(15): O O 其中表小根据公式11)判定的任意邮件最可能的归属类,表小与相 对立的另·类;由的定义可知λ,为λ设定阀值λ,只有当λ大于该阀值的时候 才认为邮件属于 例如设定为,则只有当λ时,才认为邮件属于 山国武技记文在 当λ≤时,需要进行人工判定。用户可以根据实际情况设定λ的具体值。 综上所述,可得基于特征项区分度的加权 分类算法如下 根据特征提取方法所得的特征项库,对数据集中每一个训练实例进行谝历,构建 包含类先验概率和特征项条件概率的条件概率表格 通过公式,利用得到的条件概率表格,计算任·邮件 关于某类的条件概率 通过公式分别计算每个特征项在分类过程中区分能力的权重 将的值代入公式中,并根据公式计算邮件具有最大可能性的归属类 设定适当的阀值λ,并计算属于相对立的另一类的最大似然估计, 然后依据公式计算将归于类的风险因子4的值; Step6将λ和λ进行比较,若λ大于阀值λ,将邮件属于:若λ小于或等于阀 值λ,需要进行人工判定,确定最终归的归属类。 实验结果与分析 本文所有实验均在 下,硬件配置为 ,内存 硬 盘 以 为实验环境。邮件样本来自中国教育和科研计算机网紧急响应组 提供的中文邮件样本集 ,该样本集包 含正常邮件封,垃圾邮件封。从中随机抽取封邮件构建邮件样本库,其中 包含垃圾邮件封,正常邮件封。实验方法采用“十字交叉验证法”,并以召回率 正确率和精确率作为过滤器评价标准,相关定义如下: 召回率一,精确率 止确率 其中,代表被正确识别的垃圾邮件总数,代表被误判的正常邮件总数,代表被正 确识别的正常邮件总效,代表垃圾邮件总数,代表正常邮件总数。 实验大致流程如下:在实验的第一阶段,分别利用算法和改进后的特征提取算法 构建邮件样本的特征项斥。其中,算法所得到的特征项斥定义为,改进后的特征提取 算法所得到的特征项库定义为。在实验的第阶段,分别从和中选取个特征项 ,…,构建特征冋量空间和,并在和上分别采用算法和改进后得到的 算法对邮件进行分类。運过在召回率、精确率和止确率方面的对比与分析,对算 法和算法的分类性能进行比较。 实验过程中所采用的“十字交叉验证法”的具体操作步骤如下: 将封邮件分为份,每份封,选取其中的份作为样本训练集,余下的 份作为测试集。将分类器在训练集上进行训练后,在测试集上对其分类性能进行验证。 从作为训练集的份样本中选择份作为测试集,将原来作为测试集的样本添加到 训练集中,对分炎器进行训练,然后在测试集上对分类性能进行验证。 当上述过程重复到第次,所有的邮件样木都被用做一次测试集,实验结束。其 中每一次重复过程称为一组实验。 而在每一组实验过程中,将构建特征向量空间和的特征项的数目从到 依次递增,每一个特定的特征项数目对应一组和在测试集样本已确定的情况 下,依次在每组特定的和上,分别对算法和算法的分类性能进行验证 选择其中最具有代表性的两份测试集样本的实验结果及其平均值如图、图和图 所示 由图可见:在实验的最初阶段 算法的召回率要低于算法,但随着特征 项维数的不断增加,算法召回率的上∫速度逐渐放缓,这衣明算法在特征提取阶段 所选定的特征项之间存在较多的冗余和噪声,开始对算法的分类性能产生负面景响;而 算法的召回率则一直侏持较高的上升速度,直到特征项维数达到之后,才逐渐趋 于平缓,说明改进后的特征提取方法获得的特征项斥更加有效,特征项之间冗余较少。 在召回率达到最大值后,算法的召回率开始急剧下降,这表明特征项之问所存在的冗佘 和噪声已经极大的影响了分类性能,此时继续增加特征项维数所能提供的分类信息,已经小 山国武技记文在 于特征项本身所带来的冗余和噪声,反而会产生负面效果; 算法同样受到了这方面的 影响,但其下降趋势较之算法明显趋缓,且高于同等特征项维数下算法的召回率, 性能较之算法更加稳定 米、米“米、 NB平均值-×-NB样本一米NB样本二 WNB平均值一×WNB样本一米WNB样本 特征维数(百个) 图召回率 ×- NB平均值-×-NB样本一…NB样本 WNB平均值-×-WNB样本一关WNB样本 特征维数(百个) 图精确率 义 ■NB平均值-×-NB样本一米NB样本 WNB平均值-×-WB样本一-米WNB样本 特征维数(百个) 图正确率 同样,在图中 算法的精确率在初始阶段要低于算法,但随着特征项维数 的増加,很快将其反超,且在实验后续阶段始终明昰优于算法。在图中,与算法 相比 算法的正确率有明显的提高,且变化趋势较平缓,无明显波动。 综合上述实验结果可知,改进后的特征提取算法使得特征项斥的有效性显著提高 山国武技记文在 算法进·步优化了过滤器对垃圾邮件和正常邮件的识别性能,提高了过滤器对垃圾邮件的召 回率和精确率,降低了过滤器对正常邮件和垃圾邮件的误判率,且具有较强的抗干扰性,分 类性能更加稳定。 结论 本文在以往研究的基础上,针对算法分类效果较差和 算法的条件独 性假设问题,引入特征项区分度的概念,对特征项在分类过程中区分能力之间的差异进行描 述。并基于此做岀两点改进:提岀ˉ种综合考虑特征项区分度和互信息的特征提取算法; 将朴素贝叶斯扩展为基于区分度的加权朴素贝叶斯 。实验结果表明改进后的 特征提取方法使得特征项库的有效性显著提升; 算法在召回率、精确率和正确率方面 有明显提高,且分类性能史加稳定。 本文所采用的最小风险策略基于人为设定的一个概率阀值来进行分类决策,虽然在一定 程度上可以保证分类过程中的风险最小化,但是这种方法具有较大的主观性,难以实现误判 风险和垃圾邮件召回率之间的平衡。下一步的研究工作将是对阀值和分类效果之间的关系进 行深入分析,力求提出一种更好的分类策略,进一步提高 分类器的分类性能。 参考文献 屮国互联网络信息屮心第次屮国互联网络发展状况统计报告 郑炜沈文张英鹏基于改进朴素贝叶斯算法的垃圾邮件过滤器的硏究西北工业大学学报 Uguz H. A two 范小丽刘晓霞文本分类中玍信息特征选择方法的研究计算机工程与应用 刘海峰陈琦张以皓一种基于互信息的改进文本特征选择计算机工稈与应用 邓维斌王国胤洪智勇基于粗糙集的加权朴素贝叶斯邮件过滤方法计算机科学

...展开详情
试读 8P 论文研究-基于加权朴素贝叶斯的邮件过滤方法 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    上传资源赚积分,得勋章
    最新推荐
    论文研究-基于加权朴素贝叶斯的邮件过滤方法 .pdf 10积分/C币 立即下载
    1/8
    论文研究-基于加权朴素贝叶斯的邮件过滤方法 .pdf第1页
    论文研究-基于加权朴素贝叶斯的邮件过滤方法 .pdf第2页
    论文研究-基于加权朴素贝叶斯的邮件过滤方法 .pdf第3页

    试读已结束,剩余5页未读...

    10积分/C币 立即下载 >