论文研究-基于OC-SVM的新情感词识别.pdf

所需积分/C币:9 2019-07-22 20:09:08 984KB .PDF
8
收藏 收藏
举报

当前对新词发现、情感词极性标注与情感词库构建的研究比较多,却少有一个专门针对新情感词识别的方法。提出一种基于OC-SVM的新情感词识别方法,通过种子词扩展方法获得词语集,并用旧词典、词频和停用词等对扩展的词进行过滤,获取新词,对新词获取的实验评估显示在适当的F值下,正确率可以达到455%。由于情感词和非情感词训练集的不平衡性,采用词频、相邻词及其词性等作为特征用OC-SVM(one-class support vector machine)对新词进行分类,获得新情感词,构建一个有效的新情感词识别系统。实验结果在召回率为266%的情况下,正确率可以达到45.7%,证明了算法的有效性。
1948· 计算机应用研究 第32卷 本文选取的情感词特征亡要包括四个方面;情感词前缀词、情词及词性特征与情感词不同,因此不会对于后面的情感词分类 感词前词词性、情感词后词词性、是否带有情感倾向字。 造成很人的影响。从上列词可以看出,该新词发现算法有比较 木文采用台湾大学公布的情感词库来统计特征数据,同时好的效果,分出的词在命名实休识别方面也有价值,如张杰、莫 也按照词库中情感词在样本数据中岀现的频率选取前200个言、刘翔等人名,美赞臣、广汽、当当网等公司名,以及金华等地 情感词作为训练集,通过统计选钗的情感词上卜文特征词,如名词的获取上都有很好的效果,可以被命名实体识屴借鉴。 非常/极其/越来越/挺/很/太/最/蛮灰常/十分/越发等19个 测试单个特征对分类效果的影响时选择大连埋工大学公 前缀词。如表2中的“成功”和“苦逼”,在上下文信息中乜经布的情感词库d_ senti set作对比,同样在样本数据中获得词 常出现这些程度副词特征。令c;为一个特征词,P(c)为候选频、取200个词作测试,另外按词频依次取台湾大学情感词库 词前岀现ε的次数,c;相对于候选词出现次数P(ω)的频率为 NTUSD中未被作为训练数据的200个情感同进行对比测试。 f=P(c,)/P() (4)在只取某一类特征下,评估所得到的分类模型的正确率如表3 ∫为候选情感词特征向量的一个维度。同时将所有情感所示。 词前缀特征词与侯选闻同时出现频率之和相对于P(ω)的频 表3各特征分类模型结果对比 率也作为一个特征f,表示如下: 词库 方 f dI senti set 0.46 f=∑P(c1/P(u) (5) 0. 0.56 0.71 0.68 冋时还加人上下文词性特征∫,通过统计情感词前词词 ∫为所有特征的集合。f为情感词前缀词特征,在整体效 性取出现较多的前六个词性,包括名词、动词、形容词代词、果对比里面表现最差,说明还有很多情感词的前面并不会出现 副词和介词。这些词性出现在情感词词前的次数占到情感词程度副词,道过分析发现一般当情感词为形容词的时候分类效 出现次数的65.4%,用同样的方法获取情感间的后词出现铰果比较好,如喜欢、便宜、漂亮等。∫为邻近特征词词性特征 多的前四个词性作为特征,包括名词、助词、叹词和副诃。这四效果最明显。为情感字特征,虽然特征单一,在分类的时候 个词性与情感词的同现比率为52.0%。词性特征的获取使用区分度却很高。这些特征在分类中都起到积极作用,所以当所 中科院的开源分词系统对词性进行标注。 有特征结合起米使用的时候效果会得到定的加强。 另外还用到了情感字特征∫,即新词中是否出现明显的有 在绎过人工标注的2000条微博数据上,发现的情感词包 感倾向的字,如好、坏、错、对、害、善、奸等,实验中人工选取括:好棒/尼玛/搞笑/亲们爱吃/好美/挺好/吃货/给力傻逼 了100个带有情感倾向的字。如表2中的“苦逼”,除了邻近词淡定/美白/高富帅/可亨/超值/卧槽等。当然里面还是有一些 的词性特征,“苦”也会计为特征 噪声,如“首付”“月租”“会做”等。经过对这些人工标注样本 表2情感词和非情感词的特征示例 数据的分类,共获得新情感词149个。系统评价指标随着one 怪咖我m现在是/vshi怪咖n-/m枚/q clas分类器参数mu变化的趋势如图4所示,在较好F值下 成功今天t狂街n逛v得/udel很/d成功/a非常/d顺利 正确率可以达到46%。比较而言,对发现的新词进行情感词 苫逼趣目/n整/a得/udel我/r内心/n非常/d苦逼/n 识别的正确率没有对情感词词典里的词进行分类的正确率高 要买在/p你m心有灵犀/n想/要买/n-/m件/东西/n的/udel 时候/n 这说明词频对分类结果也有影响,当数据集越多,词频特征就 用/p海飞丝/n当/沐浴/ⅵi露/y的/uel结果/n就/d是/vh 越明显,其他特征乜越完善,分类的正确率也就随之提高 飞 神清气爽/a到v现在t 从实验结果来看本文方法在新情感词的识别上有一定的效果。 3实验设计与分析 实验数据集来自第六届中文倾向分析评测(COAE)公布 的百万微博数据以及旧词典。实验过程取了其中35万条微博 数据实验样木统计数据,获取参照的文档问频P,(ω)的数据 集来自训练的北大《人民∏报》 3510203050 0.10.20.3040.50.60.7 在经过新词识别的处埋后,最终得到的新词有1580个 图3评估值随词频变化趋势图4评价指标随参效变化趋势 词,包括:博文/名企/莫言/金华/兰博基尼/很棒/辅食/怪咖′4结束语 冰镇/弱爆/锅包肉/酸辣粉/美赞臣/博客/汤包/原创/动漫‘很 忙/锦江之星/刘翔/很强/麦当劳/张杰/博友/切糕/死机/单 在现有对新词发现的硏究上缺乏专门的情感词识别研究 反/匡威/凉茶/当当网/苦逼/′徵博/博主/微信/速溶/皮草/冰而情感词极性标注也是在已知情感词的情况下进行的,本文提 箱/广汽/苏菲/元芳/傻逼/花花/雅诗兰黛/乔布斯/看房/逆出的基于OC-sⅤM的新情感词识别方法刚好可以将这两个成 大/吐槽/包邮等。 熟的研究方向结合起来。另外本文使用的基于种子词的新词 评估数据由人工标注2000条微博来测试。新词发现的发现方法在新词识别上也取得了比较好的效果,该方法在命名 准确率与召回率随过滤的词频大小变化如图3所示,在召回率实体识別、分词等方面也有借鉴意义,可以结合到分词系统中 40%的情况下,正确率可以达到45.5%。 使其具有自动识别新词的功能。在新词分类中,以相邻词、词 当然也有部分由于单字组合频率高造成的噪声,如“才性等作为特征,使用单分类的方法,仅以一些已知的情感词进 会”“各人”“没看”等,但是这些噪声在分类中使用的特征上表行训练,即得到一个能够自动识别清感词的分类器。通过最后 现不明显,如表2中的特征示例“要买”“海飞丝”所小,其前后的结果来看,在已知情感词的判断上,正确率(下转第1952页) 1952· 计算机应用研究 第32卷 现为私家车交通量向公共交通转移的比例越大。当B=0.04 致谢感谢墨尔本大学曾鹏为本文提供的计算程序。 及θ=0.06时,限速条件下地铁需求会增加,这是因为私家车参考文献: 需求向公共交通需求转移的过程中出行者选择地铁可获得更1 Yang Hai, Wang Xiaolei, Yin yafen. The impact of speed limits on 多的补偿收益;当θ=0.08时限速条件下地铁需求开始减少 traffic equilibrium and system performance in networks[ J]. Tra 且减少的比例越来越大,这是因为地铁在吸引了一定数量的需 portation Research Part B: Methodological, 2012, 46(10): 1295 求后吸引力减弱了。而公交在随着需求的上升对限速的反应 逐渐减弱,吸引力增加,故增加的比例越来越大。 [2 Wang Shuaian. Efficiency and equity of speed limits in transportation 表3列出了随θ值的增大出行时间的变化。限速使私家 networks[J_. Transportation Research Part C: Emerging Tech nologies,2013,32(7):61-75 车交通量转移,从而减少私家车出行时间。尽管转移到公共交3 Yang yanni, Lu huadu, Yin yale,ma. Oulinizaliun of variable 通的出行者增加了公共交通的出行时问,但总时同减少了。随 speed limits for efficient, safe, and sustainable mobility[ J]. Trans 着θ值的增加,私家车减少的出行时问和公共交通增加的出行 portation Research Record, 2013, 2333(1): 37-45 时间比例越来越大,但私家车出行时间减少更多,故系统总时 4刘灿齐,现代交通规划学[J].北京:人民交通出版社,2001 间下降。注意到0=0.14时私家车网络总时间义会上升。根5则兵锋,高自友,城市文通想级网络均劳配流模型及算法[ 据文献2的结论,限速在单网终中可能使总时间减少乜可[6]黄海军,李志纯。组合出行方式下的混合均衡分配模型及求解算 能使总时间增加,这是山于交通系统自身决定的。但在多模式 法[J」.系统科学与数学,2006,26(3):352-361 交通网终中,限速有使系统总时间减少、提高系统效率的作用。[7。孟梦组合出行模式下城市交通流分配模型与算法[D].北京:北 京交通大学 6结束语 8] X, Lam W H K. Network equilibrium model for congested multi-mode networks with elastic demand J]. Journal of Advanced 鉴于限速方案在单模式与多模式网络中对交通系统的不 Transportation, 2003, 37(3): 295-318 同影响,本文研究了在多模式混合交通条件下限速方案对交通9. Y ang Ha, Xiao Feng, Huang Haijun. Private road competition and 拥堵的缓解效果。在预设限速路段及限速值的方案下,采取优 equilibrium with traffic equilibriumconstraints[ I]. Journal of Ad 化模型描述了符合交通方式选择及路径选择的混合交通网络 vanced Transportation, 2010, 43(1): 21-45 [10 Sheffi I ra ns Mirlal ion nel works: erju i 设计了相应的算法进行求解。结果表明,限速在多模式混合交 Tialhemalir proyramrminy melhods[ M]. Enylewoux! Cliffs: Prenlice- 通网络中有使交通量从私人交通向公共交通转移,从而减少出 Hall Inc. 1985 行总时间的作用。由于出行者对路网信息感知准确性的不同,[l1]祝进城,帅斌,孙翊宛,等因定费率下城市出祖车拥挤收费模型 在公共交通的具体选择方式上会有差别,但总体上系统能够达 与算法「J.计算机应用研究,2013,30(8):2288-291 到优化效果。本文的研究基于固定的限速方案,而不同的限速12】]祝进城,帅斌,孙朝苑拥挤收费条件下出祖车公司收益优化研 究[冂].交通运输系统工程与信息,204,14(1):192-199 方案可有不同的效果。如何在多模式混合交通网络中设置最 13] Liu Zhiyuan, Meng Qiang, Wang Shuaian. speed-based toll desigr 佳限速方案是下一步需要进行的工作。同时,多因素的费用衡 for ceurdon-lased conyesliorpric ings hemme[J I lon he- 量指标也应包括在研究中,使优化方案更加全面。 search Part C: Emerging Technologies, 2013, 31(6): 83-98 (上接第1948页)达到了71%。另外在已知标注结果上,止确率 学报,2004,18(1):14-19 和召回率都可以达到较高值,分别为45.7%和26.6%,可见本6. Wu andi, Jiang Zixin. Statistically-enhanced new word identification 文提出的新情感词发现模型有一定的效果,可以初步满足自动 in a rule-based Chinese system[ C_//Proc of the 2nd Chinese Lan 完善情感词典要求。 guage Processing Workshop. 2000: 46-51 通过对实验结果的观察可以发现,实验还有提升的空阿。[7]张瑞霞,杨国增,吴慧欣,基于《知网》的汉语未登录词语义相似 度计算[J.中文信息学报,2012,26(1):16-21 在今后的研究中,除了优化算法使系统在新情感词获取上取得「8 Liu tao, Liu bingquan, Wang Xiaolong,lda. The effectiveness 更好的效果之外,还将考虑使用共现网络等算法给新词做词性 study of local maximum feature for Chinese unknown word identifica 标注。另外获得新词后,还将进一步研究这些数据对命名实体 tion[ J]. Journal of Chinese Languageand Computing, 2007, 17 识别方面的用处,还可以考虑新词概率与网络热点话题之间的 (1):15-26 关系,为后续的研究做准备。 9。郑家恒,李文花.基于柄词法的网络新詞自动识别初探[J.山西 参考文献 大学学报,2002,25(2):115-119 [张海军,史树敏,朱朝勇,等中文新词识别技术综述[J].计算「101许蕾网络评论中情感词的获取及极性判断方法比校1电 机科学,2010,37(3):6-10 脑与电信,2011(1):53-55 [2 Kottler S, Kaufmann M, Sinz C. Computation of renameable hor []李荣军,王小捷,周延泉. Page rank模型在中文情感词极性判别 backdoors[ M ]//Theory and Applications of Satisfiability Testing 中的应用「J].北京郎电大学学报,2010,33(5):141-144. Berlin Springer, 2008: 154-160 12] Y ang Lingpeng ong, Tang Li. Document re-ranking based [3 Chen KJ, Ma W Y. Unknown word cxtraction for Chincse documents on automatically acquired key terms in Chinese information retrieval [C]//Proc of the 19th International Conference on Computationa T Cl//Proc of the 20th International Conference on Computational guistics. [S 1.]: Association for Computational Linguistics, 2002: 1-7 Linguistics. LS 1.: Association for Computational Linguistics, 2004 4] Chen ailao. Chinese word seyimenlalion using minimal linguistic[13]潘志松,陈斌,缪志教,等,Ome-Clas分类器研究[J.电子学 knowledye[C//Proe of the 2nd SIGHAN Workship on Chinese La 报,2009,37(11):2496-2503 ]吴定海,张培林,任国全,等.基于支持向量的单类分类方法综 [5]秦文,苑春法.基于决策树的汉语未登录词识别[J].中文信息 述[J].计算机二程,2011,37(5):187-189

...展开详情
试读 4P 论文研究-基于OC-SVM的新情感词识别.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
weixin_39841848 欢迎大家使用并留下宝贵意见
2019-07-22
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
    最新推荐
    论文研究-基于OC-SVM的新情感词识别.pdf 9积分/C币 立即下载
    1/4
    论文研究-基于OC-SVM的新情感词识别.pdf第1页

    试读结束, 可继续读1页

    9积分/C币 立即下载 >