没有合适的资源?快使用搜索试试~ 我知道了~
基于证据理论的多分类器中文微博观点句识别1
需积分: 0 0 下载量 122 浏览量
2022-08-04
12:13:26
上传
评论
收藏 346KB PDF 举报
温馨提示
试读
5页
摘要要要要::随着新技术及社会网络的发展与普及,微博用户数据量剧增,与此相关的研究引起了学术界和工业界的关注。针对中文微博语句特点,通过对比多种特征选取方法,提
资源详情
资源评论
资源推荐
————————————
基金项目
基金项目基金项目
基金项目:
::
:国家自然科学基金资助项目(61170192)。
作者简介
作者简介作者简介
作者简介:
::
:郭云龙(1990-),男,硕士研究生,主研方向:自然语言处理,语义网络;潘玉斌,本科生;张泽宇(通讯作者),硕士研
究生;李 莉,教授。
收稿日期
收稿日期收稿日期
收稿日期:
::
:2013
-
--
-
05
-
--
-2
0 修回日期
修回日期修回日期
修回日期:
::
:2013
-
--
-
07
-
--
-
12 E-mail:
::
:zqlong@swu.edu.cn
基于证据理论的多分类器中文微博观点句识别
基于证据理论的多分类器中文微博观点句识别基于证据理论的多分类器中文微博观点句识别
基于证据理论的多分类器中文微博观点句识别
郭云龙
郭云龙郭云龙
郭云龙,
,,
,潘玉斌
潘玉斌潘玉斌
潘玉斌,
,,
,张泽宇
张泽宇张泽宇
张泽宇,
,,
,李
李李
李
莉
莉莉
莉
(西南大学计算机与信息科学学院,重庆 400715)
摘
摘摘
摘 要
要要
要:
::
:随着新技术及社会网络的发展与普及,微博用户数据量剧增,与此相关的研究引起了学术界和工业界的关注。针对中文
微博语句特点,通过对比多种特征选取方法,提出一种新的特征统计方法。根据构建的词语字典与词性字典,分析支持向量机、
朴素贝叶斯、K 最近邻等分类模型,并利用证据理论结合多分类器对中文微博观点句进行识别。采用中国计算机学会自然语言处
理与中文计算会议(NLP&CC 2012)提供的数据,运用该方法得到的准确率、召回率和 F 值分别为 70.6%、89.2%、78.9%,而 NLP&CC
2012 公布的评测结果相应平均值分别为 72.7%、61.5%、64.7%,该方法在召回率和 F 值 2 个指标上超过其平均值,而 F 值比 NLP&CC
2012 评测结果的最好值高出 0.5%。
关键词
关键词关键词
关键词:
::
:微博;观点句;支持向量机;朴素贝叶斯;K 近邻;证据理论
Multiple-classifiers Opinion Sentence Recognition in
Chinese Micro-blog Based on D-S Theory
GUO Yun-long, PAN Yu-bin, ZHANG Ze-yu, LI Li
(School of Computer and Information Science, Southwest University, Chongqing 400715, China)
【
【【
【Abstract】
】】
】With the development and popularity of the new technology and social network, the data volume of micro-blog users surge
sharply. Related research causes increasing attention from both academia and industry. This paper proposes a new statistical method on
feature extraction. Classification performances of different schemas such as Support Vector Machine(SVM), Naive Bayes and K-Nearest
Neighbour
(KNN) are analyzed carefully. It proposes a combined model based on D-S theory to take the advantages of different classifiers.
A series of experiments based on the Chinese Micro-Blog data provided by CCF NLP&CC 2012 are conducted, and it gets the average
estimate 72.7% in precision, 61.5% in recall and 64.7% in F-measure of NLP&CC 2012 as a baseline. Experimental results show that the
method can achieve significant enhancement in both recall and F-measure with 70.6%, 89.2% and 78.9%, respectively, and F-measure is
even 0.5% higher than the best result of NLP&CC 2012.
【
【【
【Key words】
】】
】micro-blog; opinion sentence; Support Vector Machine(SVM); Naive Bayes; K-Nearest Neighbour(KNN); D-S theory
DOI: 10.3969/j.issn.1000
-
--
-
3428.2014.04.031
计 算 机 工 程
Computer Engineering
第 40 卷 第 4 期
Vol.40 No.4
2014 年 4 月
April 2014
·
··
·人工智能及识别技术
人工智能及识别技术人工智能及识别技术
人工智能及识别技术·
··
·
文章编号
文章编号文章编号
文章编号:
::
:1000-
--
-3428(2014)04-
--
-0159-
--
-05
文献标识码
文献标识码文献标识码
文献标识码:
::
:A
中图分类号
中图分类号中图分类号
中图分类号:
::
:
TP18
1
概述
概述概述
概述
随着互联网的发展,尤其是
Web2.0
应用的普及,基于
用户关系的信息分享、传播及获取平台——微博迅速兴起。
微博具有以下特点
[1]
:
(1)
内容简短,长度限制为
140
个字
符;
(2)
数据量大,数据的来源丰富,包罗万象;
(3)
传播速
度快,微博用户可以任意转发,评论;
(4)
实时性,微博可
以通过多种终端随时发布。用户可以频繁地使用微博对某
产品及热点事件进行评论。产品的评价对于商家及买家都
较有价值,而热点事件的评论对政府做出正确决策也至关
重要,但巨大的信息量使得用户很难在短时间内准确获取
网络群体的兴趣点
[2]
。
观点挖掘技术已成为国内外研究热点。近年来,
ACL
、
SIGIR
、
KDD
等国际会议,都有相关议程探讨该领域的发
展,
NTCIR
、
COAE
等评测也涉及该研究热点。
中文微博观点句的抽取问题
[3-4]
,可理解为基于数据短
文本的一种二分类的句子级文本分类技术。当前主要方法
分为以下
2
类:
(1)
基于词典的方法:一般利用预先构建的情感词典
(
可
以人工标注或机器统计
)
,处理文本中出现的词语及其情感
信息,结合制定的规则,进而判断其主客观性
(
即观点句或
非观点句
)
。文献
[5]
以
HowNet
情感词语集为基准构建情感
词典,计算情感词的极性,从而识别短文本主客观性。文
献
[6]
考虑了连词对句子情感极性的影响,结合短语和连词
莫少儒
- 粉丝: 26
- 资源: 311
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0