没有合适的资源?快使用搜索试试~ 我知道了~
论文研究-用于网上舆论观点抽取的几种方法.pdf
需积分: 0 1 下载量 157 浏览量
2019-07-22
19:40:40
上传
评论 1
收藏 318KB PDF 举报
温馨提示
试读
3页
互联网上的海量信息中包含和反映了人们的观点和舆论倾向。从网上相关信息中抽取出人们的主观意向如消费者的购买倾向、政治观点等已成为了Web研究的热点。提出了几种适用于实时抽取网上舆论观点的算法,主要描述了各算法分析观点的原理及分类过程。
资源详情
资源评论
资源推荐
收稿日期: 2004-06-02; 修返日期: 2004-07-22
用 于 网 上 舆 论 观 点 抽 取 的 几 种 方 法
叶惠敏
1
, 唐三平
2
( 1. 西 北工 业大学 自 动化 学院 , 陕 西 西安 710072; 2. 北京 伟思 科博 网络 安全 技术 研究 所, 北京 100094)
摘 要: 互 联网 上的 海量 信息 中包 含和 反映 了人们 的 观点 和 舆 论 倾向 。 从网 上 相 关 信 息 中 抽 取出 人 们 的 主 观
意向 如消费 者的 购买 倾向 、政 治观 点等 已 成 为了 Web 研 究 的 热 点。 提 出 了几 种 适 用 于 实 时 抽 取网 上 舆 论 观 点
的算 法, 主要 描述 了各 算法 分析 观点的 原理 及分 类过 程。
关键 词: 观 点抽 取; 观点 分析 器; 分 类算 法
中图 法分 类号 : TP391 文献 标识码 : A 文章 编号 : 1001-3695( 2005) 05-0256-02
Several Algorithms Suggested for Extraction of
Public Opinion from Internet
YE Hui-min
1
, TANG San-ping
2
( 1. School of Automatic Control, Northwestern Polytechnical University, Xi’an Shanxi 710072, China; 2. Beijing Copsec Network Security Tech-
nology Institute, Beijing 100094, China)
Abstract: The extremely large message flow on Internet comprises and reflects people’s standpoint and tendency of public o-
pinion as well. To extract people’s subjective intent, such as customer purchase, public viewpoint from Internet has become
highlight in Web research.This paper suggests several algorithms for the extraction of public opinion on Internet. It is mainly
discussed in this paper about the algorithms’theory and process of analyzing respectively.
Key words: Opinion Extraction; Opinion Analysis Engine; Classification Algorithm
随着网络的发展, 越来越多的人们将互联网作为信息交流
的主要方式。与以前传统的社会调查相比, 从网上的论坛或新
闻中提取大众对某一问题的看法或舆论倾向是一个新的方法,
是一种实时收集和分析信 息方式。国 外这两 年也刚 刚开始 在
这方面的研究, 这种方式使用统计和自然语言处理技术从网上
收集的信息中抽取人们的观点倾向。与单纯的事实内容相比,
从文本中提取出带有人的主观 意识或 感情色 彩的内 容比较 复
杂, 因为并不是所有的信息内容都明确地表明正面态度或反面
态度。
网上的舆论与现实社会的许多方面能相互产生影响, 分析
和抽取网上大众观点不仅能评估出这些影响, 而且对于保证政
府及时准确地了解社情民意, 作出科学决策也有十分重要的意
义。所以需要一些新的算法能快速地获取并分析信息, 从而抽
取出人们的观点和舆论倾 向。本文提 出了几 种适用 于观念 点
提取的算法, 其中也包括传统的基于主题的分类算法。
1 网上观点抽取系统结构
网上观点抽取系统结构根 据信息 处理流 程主要 分为三 个
层次, 即数据采集层, 数据处理层和数据分析层, 其结构图如图
1 所示。数据分 析 层 的观 点 分 析器 完 成 观点 的 分 析 与抽 取。
观点分析器利用分类算法将 信息分 为三类, 正 面的态 度, 反 面
态度及中立。当然对于一些问题也可仅分为正面和反面。
字典库指电子语言字典, 它提供了基本的语言数据。特征
词汇库中包含了人工挑选出来的某领域的特征词汇, 这些词汇
被观点分析器当作统计推 断的变 量。 语法库 也可称 为训练 文
集库, 它包含了统计分析时用到的一套基本规则。
2 可用于观点分析器的几种算法
本文提出的几种算法从不 同的概 念角度 对观点 进行了 分
类。在观点分类之前, 要用 已分好 类的数 据对算 法进行 训练,
使算法从中学习到分类规则。
2. 1 简单分类器
这种算法基于正面和反 面含义 特征词 汇的统 计个 数。 这
是最简单并且最直观的分类器。根据特征词汇库中的预设词,
在一个消息中每 个词 都被 赋予 相应的 值( - 1, 0, + 1) 表 明 正
面、中立和反面。如果特征词汇的个数超过了一个给定的正面
( 或反面) 阈值, 则就将该消息划分为支持( 反对 ) , 否则就是 中
立。
2. 2 基于判别式的分类器
简单分类器并不区分特征词的重要性, 但特征词汇库中的
·652· 计算机应用研究 2005 年
数据分析层
字典库
特征
词汇库
观点分析器
训练和
测试数据
信息抽取及预处理
网页的获取
论坛网站 新闻网站
数据处理层
数据采集层
分析结果输出袁即被分类的观点
语法库
图 1 网上观点抽取系统结构
weixin_39841882
- 粉丝: 443
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AIS2024 valid
- 最入门的爬虫代码 python.docx
- 爬虫零基础入门-爬取天气预报.pdf
- 最通俗易懂的 MongoDB 非结构化文档存储数据库教程.zip
- 以mongodb为数据库的订单物流小项目.zip
- 腾讯云-mongodb数据库, 项目部署.zip
- 腾讯 APIJSON 的 MongoDB 数据库插件.zip
- 理解非关系型数据库和关系型数据库的区别.zip
- 操作简单的Mongodb网页web管理工具,基于Spring Boot2.0支持mongodb集群.zip
- tms-mongodb-web,提供访问mongodb数据的REST API和可灵活扩展的mongodb web 客户端.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0