没有合适的资源?快使用搜索试试~ 我知道了~
中文产品评论中属性词抽取方法研究1
需积分: 0 0 下载量 136 浏览量
2022-08-04
14:50:04
上传
评论
收藏 315KB PDF 举报
温馨提示
试读
3页
摘要要要要::针对现有属性词抽取方法的准确率和覆盖率偏低问题,利用百度百科和分词后相邻词语同现比例识别专业领域生词,降低分词错误对属性词识别的影响,在中文产品评
资源详情
资源评论
资源推荐
中文产品评论中属性词抽取方法研究
中文产品评论中属性词抽取方法研究中文产品评论中属性词抽取方法研究
中文产品评论中属性词抽取方法研究
栗春亮
栗春亮栗春亮
栗春亮,
,,
,朱艳辉
朱艳辉朱艳辉
朱艳辉,
,,
,徐叶强
徐叶强徐叶强
徐叶强
(湖南工业大学计算机与通信学院,湖南 株洲 412008)
摘
摘摘
摘 要
要要
要:
::
:针对现有属性词抽取方法的准确率和覆盖率偏低问题,利用百度百科和分词后相邻词语同现比例识别专业领域生词,降低分词错
误对属性词识别的影响,在中文产品评论语料中通过设计词性序列模板获得候选属性词集,该词性序列模板包含名词和名词短语模板、动
词和动词短语模板,采用统计技术和自然语言处理技术筛选候选属性词。实验结果表明,对于 3 623 篇手机评论文章,利用该方法可获得
1 732 个属性词,准确率为 0.565、召回率为 0.726、调和平均值为 0.636,具有较好的抽取性能。
关键词
关键词关键词
关键词:
::
:产品评论;生词识别;序列模板;属性词
Research of Attribute Word Extraction Method
in Chinese Product Comment
LI Chun-liang, ZHU Yan-hui, XU Ye-qiang
(Institute of Computer & Communication, Hunan University of Technology, Zhuzhou 412008, China)
【
【【
【Abstract】
】】
】Aiming at solving problems of relatively low precision, rate of coverage when using existing attribute word extraction methods, this
paper adopts Baidu Baike and co-occurrence proportion of adjacent words after word segmentation to identify new domain words, decreases impact
on recognition of attribute word caused by segmentation errors. This paper designs part of speech sequence templates which contain noun and noun
phrase templates, verb and verb phrase templates to obtain attribute word candidates from Chinese product comments, then utilizes statistical
technique and natural language processing technique to filter attribute word candidates. Experimental results show that for the 3 623 mobile phone
comments, this method obtains 1 732 attribute words, the precision, recall and f-measure reach 0.565, 0.726 and 0.636, and it has good extraction
performance.
【
【【
【Key words】
】】
】product comment; new word recognition; sequence template; attribute word
DOI: 10.3969/j.issn.1000-3428.2011.12.009
计 算 机 工 程
Computer Engineering
第 37 卷 第 12 期
Vol.37 No.12
2011 年 6 月
June 2011
·
··
·软件技术与数据库
软件技术与数据库软件技术与数据库
软件技术与数据库·
··
·
文章编号
文章编号文章编号
文章编号:
::
:1000—
——
—3428(2011)12—
——
—0026—
——
—03
文献标识码
文献标识码文献标识码
文献标识码:
::
:A
中图分类号
中图分类号中图分类号
中图分类号:
::
:TP393
1
概述
概述概述
概述
随着电子商务和
Web2.0
应用的流行,越来越多的消费者
喜欢在电子商务网站、论坛、博客上写下对产品的观点态度,
消费者在购买产品前总会咨询别人对产品的意见从而做出购
买决定,人工浏览这些海量产品评论是费时和低效的。近年
来,如何对大量的非结构化产品评论进行观点抽取,已成为
一个研究的热点。产品属性词和评价词在产品评论的观点信
息抽取中起到重要作用。产品属性词通常描述产品的一个特
征或部分。评价词是用来表达消费者的观点态度,多数是形
容词,但也有少量具有情感倾向的名词和动词。例如手机评
论中的一个评论句子:“屏幕大,按键过于紧凑,总的来说,
性价比非常高”。其中,“屏幕”、“按键”、“性价比”是属性
词,“大”、“紧凑”、“高”是评价词,它们分别表达了对“屏
幕”和“性价比”满意的态度,对“按键”持否定的态度。
抽取产品属性词和评价词,构建产品属性词词典和评价词词
典是产品评论中观点信息抽取的基础工作。属性词抽取与命
名体识别有相似之处,都是针对某类特定的名词识别。文本
中的上下文信息对这
2
个任务都有很强的指导意义,但不同
的是,因为命名体识别的主要对象是人名、地名和机构名,
所以直接利用命名体的识别方法用到属性词抽取方面并不能
取得满意的效果。本文旨在设计一种新的方法在评论语料中
抽取属性词,从而构建属性词词典。
2
相关研究
相关研究相关研究
相关研究
目前,已有不少学者针对英文产品评论中属性词抽取方
法进行研究。文献
[1-2]
利用关联规则抽取高频的属性词,然
后利用修剪规则提高准确率和覆盖率,进而利用邻近的形容
词发现低频的属性词补充属性词列表。文献
[3]
提供一个可视
化评价信息的原型系统,它们利用
tf-idf
获得属性词,并且
把属性词分成一般属性词和特殊属性词。文献
[4]
利用半监督
的学习技术抽取属性词
-
评价词关系对。文献
[5]
通过预处理,
聚类、相似度计算、名词短语聚集、修剪等非监督的方法抽
取产品属性词。国内也有不少学者对中文产品评论属性词抽
取方法进行研究。文献
[6]
抓取大量介绍产品的网页,从中手
工整理构建属性词表。文献
[7]
构建商品名称字典,然后利用
商品名称字典抽取属性词,手机属性词仅抽取到
180
个,属
性词的覆盖率比较低。
因为目前产品评论属性词抽取的准确率、覆盖率、调和
平均值值都不太高,所以有必要进行深入研究,本文主要工
作如下:
(1)
利用百度百科以及分词后的词语同现比例识别专
业领域生词,降低分词错误对属性词识别的影响。
(2)
设计词
性序列模板产生候选属性词集,词性序列模板不仅包含了名
词和名词短语模板,还包括了动词和动词短语模板,这样可
基金项目
基金项目基金项目
基金项目:
::
:教育部人文社会科学研究青年基金资助项目(09YJCZH
019);湖南省自然科学基金资助项目(10JJ3002);中国包装总公司科
研基金资助项目(2008-XK13)
作者简介
作者简介作者简介
作者简介:
::
:栗春亮(1984-),男,硕士研究生,主研方向:文本分类;
朱艳辉,教授;徐叶强,硕士研究生
收稿日期
收稿日期收稿日期
收稿日期:
::
:2011-01-14 E-mail:
::
:liliang546@qq.com
坑货两只
- 粉丝: 65
- 资源: 290
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- halcon 3D图像重建
- 现有student.txt和student-score.txt 将两个文件上传到hdfs上 使用Map/Reduce框架完成下面
- 测试数据如下 1)文件一:data01.txt,内容:Beijing is beautiful I love Beijing
- 1_notepad_share_encrypt.hdoc..bin
- 基于混合遗传算法的三维装箱问题分析-数学建模
- 2023-04-06-项目笔记 - 第一百二十五阶段 - 4.4.2.123全局变量的作用域-123 -2024.05.06
- DSGW-211规格书 EnOcean网关
- 李圳浩202308140604.pdf
- 目前世界上最好的机器学习&深度学习&神经网络&图神经网络&卷积网络&多层感知机画图工具&基于PPT
- C语言编程实战:文件操作基础,掌握fopen、fprintf、fread、fwrite等核心函数,实现高效数据存储与检索
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0