【免费】基于证据理论的多分类器中文微博观点句识别1

需积分: 0 122 浏览量 2022-08-04 12:13:26 上传评论收藏 346KB PDF 举报

资源详情

资源评论

资源推荐

————————————

基金项目

基金项目基金项目

基金项目：

：：

：国家自然科学基金资助项目(61170192)。

作者简介

作者简介作者简介

作者简介：

：：

：郭云龙(1990－)，男，硕士研究生，主研方向：自然语言处理，语义网络；潘玉斌，本科生；张泽宇(通讯作者)，硕士研

究生；李莉，教授。

收稿日期

收稿日期收稿日期

收稿日期：

：：

：2013

-2

0 修回日期

修回日期修回日期

修回日期：

：：

：2013

12 E-mail：

：：

：zqlong@swu.edu.cn

基于证据理论的多分类器中文微博观点句识别

基于证据理论的多分类器中文微博观点句识别基于证据理论的多分类器中文微博观点句识别

基于证据理论的多分类器中文微博观点句识别

郭云龙

郭云龙郭云龙

郭云龙，

，，

，潘玉斌

潘玉斌潘玉斌

潘玉斌，

，，

，张泽宇

张泽宇张泽宇

张泽宇，

，，

，李

李李

李

莉

莉莉

莉

(西南大学计算机与信息科学学院，重庆 400715)

摘

摘摘

摘要

要要

要：

：：

：随着新技术及社会网络的发展与普及，微博用户数据量剧增，与此相关的研究引起了学术界和工业界的关注。针对中文

微博语句特点，通过对比多种特征选取方法，提出一种新的特征统计方法。根据构建的词语字典与词性字典，分析支持向量机、

朴素贝叶斯、K 最近邻等分类模型，并利用证据理论结合多分类器对中文微博观点句进行识别。采用中国计算机学会自然语言处

理与中文计算会议(NLP&CC 2012)提供的数据，运用该方法得到的准确率、召回率和 F 值分别为 70.6%、89.2%、78.9%，而 NLP&CC

2012 公布的评测结果相应平均值分别为 72.7%、61.5%、64.7%，该方法在召回率和 F 值 2 个指标上超过其平均值，而 F 值比 NLP&CC

2012 评测结果的最好值高出 0.5%。

关键词

关键词关键词

关键词：

：：

：微博；观点句；支持向量机；朴素贝叶斯；K 近邻；证据理论

Multiple-classifiers Opinion Sentence Recognition in

Chinese Micro-blog Based on D-S Theory

GUO Yun-long, PAN Yu-bin, ZHANG Ze-yu, LI Li

(School of Computer and Information Science, Southwest University, Chongqing 400715, China)

【

【【

【Abstract】

】】

】With the development and popularity of the new technology and social network, the data volume of micro-blog users surge

sharply. Related research causes increasing attention from both academia and industry. This paper proposes a new statistical method on

feature extraction. Classification performances of different schemas such as Support Vector Machine(SVM), Naive Bayes and K-Nearest

Neighbour

(KNN) are analyzed carefully. It proposes a combined model based on D-S theory to take the advantages of different classifiers.

A series of experiments based on the Chinese Micro-Blog data provided by CCF NLP&CC 2012 are conducted, and it gets the average

estimate 72.7% in precision, 61.5% in recall and 64.7% in F-measure of NLP&CC 2012 as a baseline. Experimental results show that the

method can achieve significant enhancement in both recall and F-measure with 70.6%, 89.2% and 78.9%, respectively, and F-measure is

even 0.5% higher than the best result of NLP&CC 2012.

【

【【

【Key words】

】】

】micro-blog; opinion sentence; Support Vector Machine(SVM); Naive Bayes; K-Nearest Neighbour(KNN); D-S theory

DOI: 10.3969/j.issn.1000

3428.2014.04.031

计算机工程

Computer Engineering

第 40 卷第 4 期

Vol.40 No.4

2014 年 4 月

April 2014

··

·人工智能及识别技术

人工智能及识别技术人工智能及识别技术

人工智能及识别技术·

··

文章编号

文章编号文章编号

文章编号：

：：

：1000-

-3428(2014)04-

-0159-

-05

文献标识码

文献标识码文献标识码

文献标识码：

：：

：A

中图分类号

中图分类号中图分类号

中图分类号：

：：

：

TP18

概述

概述概述

概述

随着互联网的发展，尤其是

Web2.0

应用的普及，基于

用户关系的信息分享、传播及获取平台——微博迅速兴起。

微博具有以下特点

[1]

：

(1)

内容简短，长度限制为

140

个字

符；

(2)

数据量大，数据的来源丰富，包罗万象；

(3)

传播速

度快，微博用户可以任意转发，评论；

(4)

实时性，微博可

以通过多种终端随时发布。用户可以频繁地使用微博对某

产品及热点事件进行评论。产品的评价对于商家及买家都

较有价值，而热点事件的评论对政府做出正确决策也至关

重要，但巨大的信息量使得用户很难在短时间内准确获取

网络群体的兴趣点

[2]

。

观点挖掘技术已成为国内外研究热点。近年来，

ACL

、

SIGIR

、

KDD

等国际会议，都有相关议程探讨该领域的发

展，

NTCIR

、

COAE

等评测也涉及该研究热点。

中文微博观点句的抽取问题

[3-4]

，可理解为基于数据短

文本的一种二分类的句子级文本分类技术。当前主要方法

分为以下

类：

(1)

基于词典的方法：一般利用预先构建的情感词典

(

可

以人工标注或机器统计

)

，处理文本中出现的词语及其情感

信息，结合制定的规则，进而判断其主客观性

(

即观点句或

非观点句

)

。文献

[5]

以

HowNet

情感词语集为基准构建情感

词典，计算情感词的极性，从而识别短文本主客观性。文

献

[6]

考虑了连词对句子情感极性的影响，结合短语和连词

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

评论收藏

内容反馈

莫少儒

粉丝: 26
资源: 311

基于证据理论的多分类器中文微博观点句识别1

评论0

最新资源

基于证据理论的多分类器中文微博观点句识别1

评论0

基于BootStrapping的集成分类器的中文观点句识别方法

基于证据理论的多分类器系统综述

基于证据理论的加权网络中的影响节点识别

基于深度学习的中文微博作者身份识别研究

基于词典的中文微博情绪识别

论文研究-基于深层特征和集成分类器的微博谣言检测研究.pdf

基于神经网络多分类器融合系统的人脸识别方法_周健.docx

基于卷积神经网络的中文微博观点分类.pdf

论文研究-基于证据理论融合多特征的物体识别算法.pdf

基于证据理论的雷达信号融合识别算法改进研究

基于D-S证据理论的两级数据融合方法在结构损伤识别中的应用

基于BP神经网络和证据理论的超声检测缺陷识别.pdf

基于声发射与Ｄ-S证据理论的截齿磨损状态识别-论文

基于情绪因子的中文微博情绪识别与分类 (2014年)

python基于结构特征的微博水军的识别（源码+文档）.zip

基于贝叶斯模型的微博网络水军识别算法研究

论文研究-基于多文本特征融合的中文微博的立场检测.pdf

NLPCC2013评估任务_中文微博情绪识别

E-CNN-classifier:这是论文“基于Dempster-Shafer理论和深度学习的证据分类器”的可用代码（arXiv预印本arXiv

论文研究-基于D-S证据理论的掌纹识别.pdf

基于词共现图的中文微博新闻话题识别 (2012年)

基于加权证据理论的模糊信息融合目标识别 (2012年)

基于语义共现图的中文微博新闻话题识别 (2014年)

NLPCC2013评估任务_中文微博情绪识别.zip

基于朴素贝叶斯分类器的简单手写体数字识别

opencv 基于haar特征车牌分类器

模式识别实验报告实验一基于Fisher准则线性分类器设计

论文研究-基于微博数据的新词识别 .pdf

最新资源