论文研究-一种基于情感词典和朴素贝叶斯的中文文本情感分类方法.pdf

所需积分/C币:42 2019-07-22 18:31:24 594KB .PDF
收藏 收藏
举报

基于朴素贝叶斯理论提出了一种新的中文文本情感分类方法。这种方法利用情感词典对文本进行处理和表示,基于朴素贝叶斯理论构建文本情感分类器,并以互联网上宾馆中文评论作为分类研究的对象。实验表明,使用提出的方法构成的分类器具有分类速度快、分类准确度高、鲁棒性强等特点,并且适合于大量中文文本情感分类应用系统。
第10期 杨鼎,等:一种基于情感河典和朴素贝叶斯的中文文本情感分类方法 3739 问题,本文取δ=1/V,等效于当特征词不存在时,后验概率综合概率相等或者没有特征的文本,将其作为没有情感倾向的 为一个极小的存在概率。当特征词存在时,也不影响原有的客观描述,不作分类。如果出现无法分类的文本,文本集的查 概率。 全率、查准率和微平均不相等 朴素贝叶斯分类器又被称为最优分类器,其分类算法实现3.3分类实验及分析 比较简单,分类效率也比较高,在文本分类方面表现比较好。 实验使用CH统计方法选择特征(维度设置为20000 在利用朴素贝叶斯分类器进行文本分类时,需要先进行训练,和情感词典选择特征,采用词频和Bol型权值,分别使用11 估计类别的先验概率和特征的后验概率,再进行分类。 I5T10语料进行训练,对B、SH、GZ语料库进行了分类测试 分类实验及结果分析 实验结果如表3和4所示。 表3使川CH统汁方法的分类实验结果(F1:100%) 根热第1、2章介绍的文本处理和分类器构建方法,对采集 T5 T10 语料 来的宾馆评论语料进行了文本情感分类实验。本章主要是对 词频 使用CH统计和情感词典两种不同的特征选择方法,以及词 BJ 75.36 4.62 835.50 83.56 85.84 75.69 75.13 83.33 频和Bol两种权值进行对比实验研究,结果显示使用情感词 GZ 73.04 72.7281.5281.8783.4484.20 典优于使用CH统计进行特征选择。 表4使用情感词典的分类实验结果(F1:100%) 3.1中文情感语料采集及处理介绍 T10 笔者通过自己开发的网页自动采集程序,从携程网(ww 语料词频 77.07 clip.com)下载了2008-2009年北京(BJ)、上海(SH)、广州 77.0 85.95 87.80 (7)三个城市的宾馆评论,作为本文进行研究所需的语料库 75.23 73.90 84.50 84.63 86.38 86.44 在该语料库中的每条评论,用户都从房间卫生、酒店服务、周边 对实验结果进行比较可以看出,只选用情感词作为特征 环境和设施设备四个方面进行了给分,并有综合得分,分值为 选择,在所有语料上的分类结果微平均都得到了提升,这说明 1~5分。将综合得分大于等于3分的评论标注为正向评论,将情感词典作为特征选择,可以提高文本情感分类的效果。使 小于3分的评论标注为负向评论。虽然该语料库的质量和标 用情感词典还有几个优点:使用情感词典不用考虑训练和测试 注不规范,但也没有对其进行专业的整理,笔者认为该语料库语料之间特征词索引对照的问题,直接使用情感词典中词的索 符合当前互联网的实际情况,对研究互联网中文网页情感分关 引,不需要对语料进行重新处理,节省了大量的文本处理时间 具有较好的意义。语料库组成结构如表1所示。 使用降维方法,选择维度多少才是最佳的结果是个难题,实际 表1测试语料库组成结杓 应用中不可能多次进行试验分析,而使用情感词典不用考虑这 中文特征词中文情感词 BJ 43006 39211 3795 19084 2209 个问题。 5144 9028 2232 3.4对大量中文文本进行情感分类应用的讨论 16852 15108 I744 13500 l642 互联网上有海量的信息,并且每天都在不断增加,如对产 本文从三个语料库并集中选择了综合得分为1分的评论品的评论,人们在使用后才可能发表到网上。所以说互联网上 1000篇和为5分的评论10000作训练语料按照正面和的评论有两个特点,一是海量的,二是不断增多的。如果想在 负面文档的比例,共组成了三种训练语料库。其中1为平衡互联网上运用情感分类,就需要一个快速稳定,并且可以持续 语料、TS中正面与负面的文个数量为5:1,m10中正面与负面运行的分类器。 的文本比例与测试语料基本相等,正面与负面的文本数量为 使用朴素贝叶斯分类器,可以将类别的先验概率和特征的 10:1,其组成结构如表2所示。 后验概率存储起来,以此可以多次分类,但是如果想对先验和 表2训练语料库组成结构 后验概率进行修正,就必须重新计算。从式(5)(6)中可以看 语料 数量 止面 负面中文特征词中文情感词 出,只要统计doc(c;)和 weight(v,c;)就可以计算出先验和后 1000 l000 6000 5000 10597 验概率,如果改为直接存储dx(e)和 weigh(m;,c)的值,就可 T10 11000 10000 1000 12679 1560 以实现随时对先验和后验概率进行修正。并且选用情感词典 3.2评价指标 作为特征,固定的特征可以使分类器的训练和测试能够持续进 行,而不用担心特征对应的问题。这样来,当一个或一组文本 本文对分类器的性能进行评测时,采用丁微平均(F1)作 处理完成后,就可以把新增的文本数和特征权值累加到存储结 为评价分类结果的指标需先计算查准率( precision)和得回率果中,从而达到修正先验和后验概率的目的。 ( recall),计算方法如式(7)~(9) 实验2先取小部分语料(T1)进行训练,构建一个基础的 ∑ ctrue(c;) 7)概率模型,然后将语料库(BJ)定量2000条不断输入到分类器 ∑ eE cdoc(c) (c1) 测试,每次输入先对已经输入的所有语料进行测试,得到测试 all cresponse(c (8)的评价指标,之后使用最新一组的输入语料修正概率模型。本 on x recall 文分别采用了两种方式修正,一种是使用语料的标注类别,一 100% (9 种是根据最大期望算法(EM)的思想3,模拟对语料标注不明 式(7)(8)中的tue(c)是分类为c并且正确的文本数,式情况下的情感分类,是利用分类的结果作为修正概率模型。实 (8)中的 res ponse(c)是分类为c的文本数。对于正向和负向验结果如图2所示。 (下转第3743页) 第10期 宋烜,等:用 Mapreduce实现天文星表交叉认证 3743 加少量节点的情况下就可以获得比较大的性能提升,而节点数 参考文献: 大于6个以后所获得的性能提升没有第4、5个节点显著,但仍 可以设想如果在更大数据量情況下,越多节点应该会获得更好 [1 DJORGOVSKI S G, BRUNNER R J. Astronomical archives of the fu- ture: a virtual observatory J. Future Generation Computer Sys 的效率。 tems,1999,16(1):63-72 140011270 3000 1200 MAprEduce [2 CUI Chen-zhou, ZHAO Yong-heng. Worldwide R&D of virtual ob 2500 servatory[ J]. Proceedings of the International Astronomical 它15001 Union,2007,3:563-564 1000 200 “8 L3」Ⅴ iewing the heavens through the cloud LEB/OLJ.[2009-12-14」. http://ssg.astrowashingtonedw/research.shtmlresearch/clue 节点数 节点数, PostgreSQL单节点 [4] ZHAO Qing, SUN Ji-zholl, YU Ce, et al. A paralleled large-scale 图4节点数效率对比图5 MapReduce与 Postgre SQL性能对比 aslrunumical cruss-malching function[ C]//Proe of Lecture Noles in 天文星表数据一般只需要匹配一次就可以作为结果一直 Computer Science, vol 5574. 2009: 604-614 使用,所以可以认为数据库建立索引时间和匹配时间的和需要[5]高,张度霞,赵永恒,中国虚拟大文台交叉认证工共的开发和 一起与 Map reduce进行比较。可以看到, MapReduce有非常大 应用[J].天文学报,2008,49(3):348-358 的优势,但是在非大规模两个星表匹型查询中,如单个点的匹[61CGP. Report on cross matching catalogues [EB/O1.(2003-0929) [2009-12-14]. hElp: //wiki. aslrugrid. org/pub/Astrugrid/DalaFe 配查询,建立「索引的DBMS的性能较好。 derationanddata lcross. htm 4结束语 I? POWER R. Cross match simulation[CP/OL].(2007-04-23)[2009 12-14].http://www.ict.csiroau/staff/robert.power/projects/cm 本文将 Mapreduce引入天文星表交叉认证领域中,给出 了详细的算法设计与实现,介绍了利用 MapReduce框架实现8MAuY0. Tera Byte sort on Apache Hadoop EB/OL1.(2006 并行星表交叉认证。与传统的 Postgres①L相比,使用 Maple 05)[2009-12-14].http://gartbenchmark.org/yahoohadoop.pdf drce无须建立索引,不仅可以获得更好的性能,而且支持使用 [9] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on 者自由地调节误差半径等匹配参数;此外 Mapreduce可以在 large clusters[J. Communications of the ACM, 2008, 51(1) 107-113 分布式计算环境中使用,从而有效地支持北量查询 在今后工作中,将测试更大的数据集,并对星表交叉认 CUTRI R M, SKRUTSKIE M F, VAN DYK S,aa.2 MASS all sky catalog of point sources, the IRSA 2MASS all-sky point source cata 算法进行优化,扩展其功能,以实现更快速、准确的匹配。此 log, NASA/IPAC infrared science archive EB/OL..(2003 外,随着 Mapreduce和并行数据库技术的不断发展,两者正在 009-12-14.http://irsa.ipacscaltecheduapplications/gatar/ 呈现融合的趋势。类SQL的 HBase、Pig、Hive等 MapReduce新11 CHURCHWELL E, BABLER B L, MEADE M F,ea. The Spit 项目在不断涌现。传统的DBMS也在尝试利用 MapReduce来 zer/GLIMPSE surveys: a new view of the milky way J]. Publica 解决一些如建立R-tree等问题。未来的工作中也将尝试混合 tions of the Astronomical Society of the Pacific, 2009, 121 Mapreduce与并行数据库两种架构来实现星表交叉认证。 213-230 (上接第3739页) 100 及建立不同领域的辅助情感词典是很有必要的。在情感词典 拿 !↑」 的基础上,构建不同领域的朴素贝叶斯概率模型,不断进行修 正,可以实现对互联网上大规模网页情感分类、舆论观点分析 等工作。但是如何在人工标注较少的情况下,构建较好的概率 模型还值得深入研究。 35791113.15171921 EM-PF M-NF-EM-Fl 参考文献: F1 图2实验2的测试结果 [1]李军,中文评论的袋贬义分类试验研究[D].北京:清华大学, 从结果可以看岀,使用正确的标注修正概率模型,正向和「]王素格,魏英杰.停用词表对中文文本情感分类的影响[J·情报 总体的徵平均值是上升的,但对于负向是处于下降的,这是因为 学报,2008,27(2):175-179 测试语料不对称造成的。采用EM算法的效果不够好,这是因31《现代汉语常用词表》课题组.现代汉语常用词表(草案) 京:商务印书馆,2008 为分类结果的错误影响了概率模型的修正。如果能构建一个较 [4」王素格,杨安娜,李德玉,基于汉语情感词表的句子情感倾向分类 好的概率模型,以及合理的概率修正机制,使用情感词典和朴素 研究LJ」.计算机工程与应用,200,45(24):153-155 贝叶斯方法可以持续对大量的文本进行快速的情感分类。 [5]柳位平,朱艳辉,栗春亮,等.中文基础情感词词典构建方法研究 [J].计算机应用,2009,29(11):2882-2884 4结束语 [6 YANG Yi-ming, PEDERSEN JO. A com parative study on feature se lection in text cate gorization C //Pror of the 14th International Con 通过一系列的实验可以看出,在使用朴素贝叶斯方法进行 ference on Machine Learning. San Francisco, CA: Morgan Kauf 屮文文本情感分类时,其特征选择和构建慨率模型是比较重要 mann,1997:412-420 的。实验表明,特征选择用情感词典效果比较好,但目前中文7 MITCHELL T M机器学习M,北京:视械工业出版社,2003 方面还没有一个比较权威的基础情感词典,并且在不同领域,[81李,孙华,张巧荣,等,一种文本处理中的朴素贝叶斯分 情感词汇又有区别,所以建立一个全面的中文基础情感词典以

...展开详情
试读 4P 论文研究-一种基于情感词典和朴素贝叶斯的中文文本情感分类方法.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    上传资源赚积分,得勋章
    最新推荐
    论文研究-一种基于情感词典和朴素贝叶斯的中文文本情感分类方法.pdf 42积分/C币 立即下载
    1/4
    论文研究-一种基于情感词典和朴素贝叶斯的中文文本情感分类方法.pdf第1页
    论文研究-一种基于情感词典和朴素贝叶斯的中文文本情感分类方法.pdf第2页

    试读已结束,剩余2页未读...

    42积分/C币 立即下载 >