小型微型计算机系统
Journal
of
Chinese
Computer
Systems
2010年4月第4期
VoL
3l
No.4
2010
基于情感词典扩展技术的网络舆情倾向性分析
杨
超2”,冯
时2,王大玲1,一,杨
楠2,于
戈1·2
1(东北大学医学影像计算教育部重点实验室,辽宁沈阳110004)
2(东北大学信息科学与工程学院,辽宁沈阳110004)
’(河北省电力研究院。河北石家庄050021)
E—mail:yangchaoneucs@sina.com
摘要:随着Web2.0时代的到来,网络已逐渐成为反映社会舆情的重要载体之一,网络舆情发现及网民的观点和倾向性挖掘
也成为新的研究热点,但是目前尚无有效反应网民对热点事件或话题总体态度的舆情分析系统.本文针对网民关于话题评论简
单、数目众多的特点,应用HowNet和NTUSD两种资源对现有情感词典进行扩展,建立了一个新的、具有倾向程度的情感词典.
基于扩展的情感词典,开发了一个半自动化网络舆情分析系统。该系统能够为用户提供更加细致、准确的评论倾向性分析结果
关键词:观点挖掘;情感词典;倾向性分析;网络舆情
中图分类号:TV311
文献标识码:A
文章编号:1000·1220(2010)04-0691-05
Analysis
on
Web
Public
Opinion
Orientation
Based
on
Extending
Sentiment
Lexicon
YANG
Cha02r。FENG
Shi2,WANG
Da.1in91”,YANG
Nan2。YU
Gel·2
1(Key
Laboratory
ofMedical
Image
Computing。Northeastern
University,Ministry
ofEducation,Shenyang
110004,Chinal
2(School
ofInformation
Science
and
Engineering.Northeastern
University.Shenyang
110004.China)
3(Hebei
Electric
Power
Academe-Shijiazhuang
050021。Ch/na)
Abstract:As
the
Web
2.0。network
becomes
one
of
the
important
medium
for
reflecting
pubic
opinions-finding
and
mining
pubHc
opinion
orientation
become
an
issue.But
till
now.no
effective
opinion
monitoring
system
of
reflecting
the
total
orientation
of
the
neff—
zens
on
some
hot
events
Or
topics
has
been
proposed.In
this
paper-according
tO
the
characteristics
of
simplicity
and
large
amount
of
opinions
on
some
topics。an
existing
sentiment
words
lexicon
is
extended
using
HowNet
and
NTUSD-and
a
new
sentiment
lexicon
with
sentiment
orientation
extent
is
built.Based
on
the
extended
sentiment
lexicon。a
semi·automatic
web
public
opinion
analysis
sys-
tem
is
proposed,which
call
provide
users
more
detail
and
precise
opinion
orientation
analysis
results.
Key
words:opinion
mining;sentiment
lexicon;orientation
analysis;web
public
opinions
1引言
近年来,对于描述非事实的主观性文本处理方面的研究
越来越多¨.2】,主要特点是分析和处理个人、群体等所表达的
意见、情感和态度等.观点挖掘已经成为数据挖掘中的一个重
要分支,它可以面向许多领域,如:市场分析、市场预测、民意
调查以及信息监控等等.但是,目前大多数的研究工作主要面
向商品的评论和反馈p.4j,涉及网络舆情、特别是基于观点分
析的网络舆情的研究相对较少.
随着Web2.0时代的到来,网络成了反映社会舆情的重
要载体之一,越来越多的人们通过博客、论坛以及网站留言板
发表自己对热点事件的观点和看法.对于某个热点事件,如果
将其有关的网络舆情信息加以汇总并且进行分析,就可以反
应出对于这个事件民众所持有的态度和观点的倾向性.这种
汇总的网络舆情,可以有效地帮助相关政府职能部门了解民
意,进而做出及时的反馈.本文应用观点挖掘技术通过对新闻
网页的评论进行收集并进行分析,将网民的评论汇总成肯定、
否定和中性三类,取得了良好的效果.
本文其余部分组织结构如下:第2部分简单介绍相关工
作;第3部分着重介绍情感词典的扩展及面向网评的情感倾
向性计算方法;第4部分介绍网络舆情倾向性分析系统的构
建及相关功能;第5部分给出实验结果及分析;最后在第6部
分对本文工作进行总结.
2相关工作
分析评论中文本的情感倾向性是观点挖掘的主要任务之
一,目前倾向性的分析主要针对词汇、句子和篇章三个层面进
行分析.词汇的情感分析目前主要有三种方法,一种是基于
WordNet悼。和HowNet【01这样的知识库,首先选择两组具有明
显正向和负向极性的词语作为种子词,对于一个情感倾向未
知的词,计算这个词与两组种子词的相似度,与正向种子词组
相似度高的则判定为正面倾向,反之则判定为负面倾向.词汇
倾向性分析的另一种方法是无监督学习方法p
J,这种方法同
收稿日期:2008-12—17收修改稿日期:2009-03-03基金项目:国家自然科学基金项目(60973019)资助.
作者简介:杨超。男,1984年
生,硕士研究生,研究方向为文本挖掘;冯时,男,1981年生,博士研究生,研究方向为文本挖掘;王大玲.女,1962年生,博士,教授,博士生导
师。研究方向为Web挖掘.
万方数据
评论0
最新资源