汉语语句主题
语义倾向分析方法的研究
姚天昉
娄德成
上海交通大学计算机科学与工程系 上海 200240
E-mail:
yao-tf@cs.sjtu.edu.cn
lou-dc@163.com
摘 要:本文介绍了如何识别汉语语句主题和它与情感描述项之间的关系以及计算主题的极性。我们利用本
体来抽取语句主题以及它的属性,然后在句法分析的基础上,识别主题和情感描述项之间的关系,从而决定
语句中每个主题的极性。实验结果显示,我们在研究中所采用的方法是合理和有效的。
关键词:主题,语义倾向,网络评论,句法分析,意见挖掘
Research on Semantic Orientation Analysis for Topics
in Chinese Sentences
Yao Tianfang Lou Decheng
Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai 200240
E-mail:
yao-tf@cs.sjtu.edu.cn
lou-dc@163.com
Abstract:
This paper presents how to identify the topics in a Chinese sentence as well as the relationships bewteen
topics and sentimental descriptive terms and how to compute the polarity of topics. We extract the topics and their
attributes from a sentence with the help of an ontology, identify the relations between topics and sentimental descriptive
terms beased on parsing results, and finally determine the polarity of each topic in a sentence. The experiment has
shown that the adopted approach in the investigation is reasonable and effective.
Keywords:
topic, semantic orientation, Web review, parsing, opinion mining.
1
概述
目前,英特网上的信息与日剧增,蕴藏着巨大的信息量。但是,要想在很短的时间内获得
人们对于诸如人物、事件、传媒、产品等有价值的评价信息,往往是十分困难的。面对这样的现
实问题,意见挖掘(opinion mining)技术应运而生。
根据美国南加州大学 Kim 和 Hovy 对意见的定义[1],意见由四个元素组成,即主题(topic)、
持有者(holder)、陈述(claim)和情感(sentiment)。这四个元素之间存在着内在的联系,即
意见的持有者针对某主题发表了具有情感的意见陈述。例如,“我昨天买了一辆汽车,它不但外
观漂亮,而且性能很好。”在这句语句中,一共有三句子句。第一句是客观句,所以它不包含意
见的陈述。第二、三句子句则是主观句,而且是包含意见的陈述。对于这两个陈述,它们的主题
分别是“外观”和“性能”,它们都是“汽车”的属性(特征)。这两个陈述的意见持有者是作者
“我”。在陈述中所描述的情感词(sentimental word)是“漂亮”和“好”,都是褒义的。另外,
“很”是一个修饰词,用以修饰情感词,以加强褒义的程度。