论文研究-改进的朴素贝叶斯垃圾邮件过滤算法.pdf

所需积分/C币:10 2019-09-12 16:37:47 576KB .PDF
收藏 收藏
举报

使用Logistic回归模型进行中文文本分类,通过实验,比较和分析了不同的中文文本特征、不同的特征数目、不同文档集合的情况下,基于Logistic回归模型的分类器的性能。并将其与线性SVM文本分类器进行了比较,结果显示它的分类性能与线性SVM方法相当,表明这种方法应用于文本分类的有效性。
1542009,45(14) Computer Engineering and Applications计算机工程与应用 100 SVM R sⅤMP 亠 LOGIT R -C-SVM P LOGT P -LOGIT R LOGIT P 135791113151719 135791113151719 图1选用语义特征时训练集1上的分类效果 图2选用语义特征测试数据集1上的分类效果 120 100 80 SVM R 60 个 SVM P -LOGIT R SⅤM LOGIT P +LOGIT R XA-LOGIT P 0 0 3151719 135791113151719 图3选用关键词特征训练集1上的分类效果 图4选用关键词特征测试集1上的分类效果 数而判为不属于该类的文档数。分类平均正确率为:P=(∑P eth International Conference on Machine Learning. 2003. 2: 616-623 C。SVM分类器采用线性核函数,惩罚因子取值为1。 [2] Chiang J H, Chen Y C Hierarchical fuzzy -KNN networks for news 数据集1上的实验结果见图1~图4, Logistic和SVM分类 documents categorization[C/1Oth IEEE International Conference on 的准确率和召回率相差不多。语义特征维数1400维而关键词 Fuzzy Systems, 2001(2): 720-723 特征高达159684维,两种文本表示特征的分类结果中,语义131 Sebastiani f, Nazionale c, Valdambrini N. An improved boosting 概念特征相对稍微低1个百分点左右,可能是由于语义分析消 gorithm and its application to text categorization[CV/proceedings of 歧效果不够理想,下一步工作中将加强语义消歧模块功能。 the Ninth International Conference on Information and Knowledge 整体分类效果见表2、表3,在两个不同来源的数据集上的 Management. 2000: 78-85 Logistic与SVM分类效果近似,说明了基于 Logistic分类方法41 Zhang Hao, Berg a c, Maire M, et al.SVM-KN: Discriminative 的适应性和有效性。数据集2上测试集的分类正确率相对于数 nearest neighbor classification for visual category recognition[Cll 据集1偏低,与网页数据的特性有关。 IEEE Computer Society Conference on HHComputer Vision and Pattern Recognition, 2006: 2126-2136 表2数据集1分类平均正确率 (%) 5 Yang Y An evaluaton of statistical approaches to text categoriza tion[J] Information Retrieval, 1999, 1(1): 76-78 语义特征 关键词特征 训练集测试集训练集测试集 6]王济川郭志刚 logistic回归模型方法及应用M北京:高等教育出 SVM LOGIT SVM LOGIT SVM LOGIT SVM LOGIT 版社,2001 988695.3983.1782.5999959974584.9883.89 「7]邹娟,周经野,邓成.一种基于语义分析的中文特征值提取方法门 计算机工程与应用,2005,41(36):164-166. 表3数据集2分类平均正确率 (%) [8]赵风治数值优化中的二次逼近法M北京:科学出版社,1994 语义特征 关键词特征 19 Komarek P, Moore A Fast robust logistic regression for large sparse 训练集 测试集 训练集 测试集 datasets with binary outputs[Cy/Proceedings of the Ninth International VM LOGIT SVM LOGIT SVM LOGIT SVM LOGIT Workshop on Artifical Intelligence and Statistics, 2003: 197-204 9992980868.5670.1110010066.296756 [10] Keerth SS, Duan K B, Shevade S K, et al. A fast dual algorithm for kernel logistic regression[J]. Machine Learning, 2005, 61(1) 5结束语 151-165. 本文使用 Logistic回归模型进行中文文本分类。通过实验, [11 Lin C J, Weng R C, Sathiya Keerthi STrust region Newton meth- 比较和分析了关键词、语义特征、不同文档集合的情况下,基于 ods for large-scale logistic regression[C]//proceedings of the 24th International Conference on Machine Learning, 2007.3: 561-568 Logistic回归模型的分类器的性能。并将其与线性SVM文本分 类器进行了比较,结果显示它的分类性能与线性SVM方法相 2]董振东知网EB/ Ol].hTtp:/ ww. keenage com. 当,表明了这种方法应用于文本分类的有效性。如果能进一步13谈文蓉符红光,刘莉等一种基于贝叶斯分类与机读词典的多义 词排歧方法J计算机应用,2006,26(6):1389-1391 提高语义分析的准确率和考虑文本数据分布不均衡性,将得到141 Chen hac, He Ting-ting, Ji Dong-hong,etl. n unsupervised ap- 更好的分类结果。 proach to Chinese word sense disambiguation based on Hownet[JI Computational Linguistic and Chinse I anguage Processing, 2005, 10 参考文献 (4):473-482 ] Rennie D M, Shih l, Teevan J, et al.Tackling the poor assump-[15]李新福组合降维技术在中文网页分类中的应用小计算机工程与 tions of Naive bayes text classifiers [Cp/proceedings of the twenti 应用,2007,43(24):169-171

...展开详情
试读 3P 论文研究-改进的朴素贝叶斯垃圾邮件过滤算法.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    weixin_38743602 欢迎大家使用并留下宝贵意见
    2019-09-12
    • 至尊王者

      成功上传501个资源即可获取
    关注 私信 TA的资源
    上传资源赚积分,得勋章
    最新推荐
    论文研究-改进的朴素贝叶斯垃圾邮件过滤算法.pdf 10积分/C币 立即下载
    1/3
    论文研究-改进的朴素贝叶斯垃圾邮件过滤算法.pdf第1页

    试读已结束,剩余2页未读...

    10积分/C币 立即下载 >