论文研究-语言无关的贝叶斯集成分类模型 .pdf

所需积分/C币:5 2019-08-15 13:54:20 258KB .PDF
收藏 收藏
举报

语言无关的贝叶斯集成分类模型,古平,朱征宇,现有文档分类模型主要针对特定语言的文档,缺乏对多种语言的适应能力。本文提出将N-Gram与贝叶斯模型相结合的思想,使得模型独立于
山国科技论文在线 为此,我们设计了个包括个成员的贝叶斯集成分类模型。集成中每个成员均由不同 的 模型与贝叶斯模型结合而成,以满足跨语言的文档分类需求。由于 不同 模型在语言结合模式上的差异性,使得各分类器之间呈现一定的性能差异和互 补性,这为贝叶斯集成提供了良好的基础。但仅仅提高分类器之间的差异性还不够,如果判 决集成方法无法有效利用这种差异性,则集成系统的忙能同样得不到有效改进 以往的判决集成研究多集中于两类:分类器选择法和分类器融合法。分类器选择法的基 本思想是对不冋的输入样本选择最可能对其正确分类的分量模型。假定样本空间可以被分为 个不同的区域 ,>,则每个区域均有一个性能最优的分类器与之相联,)负 贲对该区域内的样本进行分类,如 集成法。分类器融合法则假定所 有分类器对不同样本区域均有效,因此集成判决由所有分类器共同决定,如 方法。两类方法在处理不同类型的问题上各有所长,但·直以来缺乏有效的结合。如同文 档集中,由于分类器对样本的性能差异,有时需要采用分类器选择法,有时需要采用分类器 融合法,使用固定的集成方法往往不能满足文档多样性的要求,因此,本文在在两种常见集 成法 (简记为)和 (简记为)的基础上, 提出一种自适应的判决集成方法,它能根据所有分类器对样本的性能差异,自动选择最佳的 集成方式 3.2自适应判决集成 臼适应判决集成的思想非常简单:对所有贝叶斯分量的判决输出,我们首先采用分类器 选择法选岀杵本的区域中性能最好的分类器,通过比较,如果该分类器确实显著 优于其它分类器,则分类器的分类结果即为整个贝叶斯集成的判决结果。反之,意味 着区域中各分类器的性能比较平均,这吋可以采用方法对分类器的结果进行融合。 上述方法的关键在于如何确定分类器的显著最优性,因为分类器训练时可能出现 过拟合,导致训练误差很低的假象,这时根据分类精度选出的分类器可能出现较晑的误差。 为此,本文提出一种基于置信区间的比较方法,对最优分类器与其它一个分类 器之间的性能差异进行验证,以下是置信区间的计算公式 其中,为样本数, 为置信度为%,自由度为一的值。是分类器 在区域中的性能估计。如果最优分类器与次优分类器的置信区间不产生重叠,则可 以认为分类器確实显著优于其它分类器。假定在区域中分类器的最优精度为 次优精度为,则△= △>,为保证两分类器之间的置信区间不重叠,△的临界 值为 将△=-带入上式,可得 山国科技论文在线 据此,如果集成中最优分类器与次优分类器之间的性能差距大于△,则可以认为该最优 分类器在区域中具有明显的优势,可以直接信赖并采用该分类器的判决结果,反之,则 需要融合其它分类器的判决结果 4.实验结果与分析 本节,我们对贝叶斯集成分类模型在 和 人民日报新闻语料库中的 分类性能进行实验验证。 是由分属个类别的 篇文档构成的英文语料 库,为便于系统评价,我们随机选取%的文档作为训练集,%的文档作为测试集,并 基于 进行特征提取。 新闻语料库于年由发布,其中包 含国内、国际、体育、文化等新闻文章共 篇,我们从中抽取出政治社会、经济、文 化教育、文艺娱乐、体育、学术理论六大类,每类篇共篇文章作为实验文档集, 其中训练集占%,测试集占% A.1贝叶斯集成模型在20- Newsgroup中的性能 表是不同集成分类模型在 中的值对比。我们主要实现了四种集成分 类模型: (基于 的集成), (基于 的 集成);另两种分别是基于词特征和字符特征的贝叶斯集成模型。 表不同集成模型在 上的值 类别 字符级贝叶斯词级贝叶斯 集成模型 集成模型 可以看岀,不论是词级还是字符级的贝叶斯集成模型,其值均优于使用 和 算法的集成。这与两方面的因索有关:首先,由」贝叶斯模型是一种稳定的 学习模型,无论是 还是 算法对其性能的提升均不明显;其次, 和 算法在判决集成吋采用的是加权平均法,这在所有判决集成方法中也不是最优的 山国科技论文在线 4.2贝叶斯集成模型在TREC5中的性能 本实验对贝叶斯集成模型在其它语言—中文文档集 上的性能进行分析。我们 对比了三种模型的值:采用分词的朴素贝叶斯模型 贝叶斯分量模型;贝叶斯 集成模型。由于篇嗝限制,表中只列岀了其中性能相对较好的两个分量模型 表不同模型在 上的值 类别 增强 增强 贝叶斯集成模型 政治社会 经济 文化教育 % 文艺娱乐 体育 学术理论 从表中可以看岀:贝叶斯集成模型对各分量模型的性能攻进非常明显,除在类别“政治 社会”上稍差外,其余类别上均优于 贝叶斯分量模型。虽然总体上贝叶斯集成模型 的性能不及采用分词的的,但它们之间性能差异并不大,而且考虑到分词的复杂性,我 们认为贝叶斯集成模型在分类性能和可扩展性上仍然是令人满意的。 5.结论 本文提出一和语言独立的贝叶斯集成分类模型,模型以提高贝叶斯方法在文档分类中的 可扩展性和性能为主要目标,将朴素贝叶斯模型与 语言模型相结合,并通过多分类 器集成框架,探索出一条改进模型性能稳定性的集成方法。最后,在中文和英文文档集中的 实验进一步验证了上述方法的有效性。 参考文献 中国技记文在线

...展开详情
试读 6P 论文研究-语言无关的贝叶斯集成分类模型 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    • 至尊王者

      成功上传501个资源即可获取
    关注 私信 TA的资源
    上传资源赚积分,得勋章
    最新推荐
    论文研究-语言无关的贝叶斯集成分类模型 .pdf 5积分/C币 立即下载
    1/6
    论文研究-语言无关的贝叶斯集成分类模型 .pdf第1页
    论文研究-语言无关的贝叶斯集成分类模型 .pdf第2页

    试读已结束,剩余4页未读...

    5积分/C币 立即下载 >