# 基于人民日报和微博等与疫情有关话题数据所作的两极情感分析---机器学习方法
### 前言
在成功获取来自微博和人民日宝的数据后,重点就是如何利用这些数据实现情感的极性分析。目前情感倾向分析的主流方法有两类,其一是基于情感词典,这需要应用到标注好的情感词典,英文语料的各类词典数量庞大,而现有的中文语料的词典却不是很多,主要有知网整理的情感词典 Hownet 和台湾大学整理发布的 NTUSD 两个情感词典,还有哈工大信息检索研究室开源的《同义词词林》可以用于情感词典的扩充。在实践过程中我们选取了大连理工大学的情感词汇本体库进行基于词典的情感分析.第二种方法则是基于机器学习,其需要大量人工标注的语料作为训练集,并通过提取文本特征,构建分类器模型来实现情感分类。
下图为使用机器学习方法的过程流:
![](https://www.writebug.com/myres/static/uploads/2022/1/6/c060e8710cf22612a09d30ee9a4053e0.writebug)
相较于固定的情感词典,机器学习方法的优点就在于其精确度更高。首先,词典匹配会由于语义表达的丰富性而产生很大误差,而机器学习则无需深入到语法层面。其次,词典匹配的方法适用范围更加广泛,因为词典本身所包含的语料就十分丰富;相较而言,机器学习方法对训练集语料的质量依赖性较高,如果训练语料针对性不强,则会严重影响到模型的性能,相反优秀的训练语料会使训练所得模型在特定的预测方向拥有极高的精确度。
Python 有很多优秀的适用于情感分类的模块,比如 Python 自然语言处理包,即 Natural Language
Toolkit,简称 NLTK,本次实验中,还使用了 jieba 作为中文文本的分词工具。
![](https://www.writebug.com/myres/static/uploads/2022/1/6/fa4b95991232731a8c633af5d27e0f38.writebug)
#### 中文分词 Chinese Word Segmentation
在 NLP 中,分词可以说是最基础的任务。分词需要正确地将句子,段落、文章之类的长文本分解为字词单位,方便后续的处理分析。分词的目的在于把原生数据转化成具有特定结构 的数据,这是模型提取特征的基础,使机器学习方法把原始问题转化成数学问题成为可能。英文天然可以通过空格分词,但有时候也要考虑将多个单词判断成一个词,比如“New York”,而且英文单词具有多种形态,为了应对这些复杂的词形转换,英文 NLP 相比中文存在一些独特的处理步骤,我们称为词形还原(Lemmatization)和词干提取(Stemming);而对于中文来说,因为中文语句中没有空格,实际划分会比较困难。另外,中文分词还要考虑词语的粒度问题。“南京九乡河文理学院”就有多种分词方法:
- ”\南京九乡河文理学院\"
- "\南京\九乡河文理\学院\"
- "\南京\九乡河\文\理\学院\"
不同的分词粒度对应于不同的场景需要。
# 一、中文分词问题
分词中涉及到三个基本问题:分词规范、歧义切分、未登录词识别。
### 分词规范
- 既上文提到的分词粒度的问题
### 歧义切分
带有歧义的字段在汉语中普遍存在,而歧义字段是汉语切分的一个重要难点。梁南元最早对歧义字段进行了两种基本的定义:
- 交集型切分歧义:汉字串 AJB 称作交集型切分歧义,如果满足 AJ 、JB 同时为词(A 、 J、B 分别为汉字串)。此时汉字串 J 称作交集串。如,大学生(大学/学生)、研究生物(研究生/生物)、结合成(结合/合成).
- 组合型切分歧义:汉字串 AB 称作多义组合型切分歧义,如果满足 A 、B 、AB 同时为词。如,起身(他 | 站 | 起 | 身 | 来/明天 | 起身 | 去北京)、学生会(我在 | 学生会 | 帮忙/我的 | 学生 | 会来 | 帮忙)
可以看出,歧义字段给我们的分词问题带来了极大的困扰,所以想要正确的做出切分判断,一定要结合上下文语境,甚至韵律、语气、重音、停顿等。
### 未登录词识别
未登录词,一种是指已有的词表中没有收录的词,另一种是指训练语料中未曾出现过的词。而后一种含义也可以被称作集外词,(out of vocabulary),即训练集以外的词。通常情况下未登录词和是一回事,这里不加以区分。
未登录词大体可以分为如下几个类型:
- 新出现的普通词汇,如网络用语当中层出不穷的新词,这在我们的分词系统这种也是一大挑战,一般对于大规模数据的分词系统,会专门集成一个新词发现模块,用于对新词进行挖掘发现,经过验证后加入到词典当中。
- 专有名词,在分词系统中我们有一个专门的模块,命名体识别( name entity recognize),用于对人名、地名以及组织机构名等单独进行识别。
- 专业名词和研究领域名称,这个在通用分词领域出现的情况比较少,如果出现特殊的新领域,专业,就会随之产生一批新的词汇。
- 其他专用名词,包含其他新产生的产品名、电影、书籍等等。
经过统计汉语分词出现问题更多是由于未登录词造成的,那么分词模型对于未登录词的处理将是衡量一个系统好坏的重要指标。
# 二、常用中文分词方法
从汉语自动分词的概念被提出来以后,人们提出了许多分词方法,早期的分词方法主要基于词典,属于字符串匹配算法,比较著名的有在上世纪 80 年代提出的正向最大匹配法(FMM),对文本呢从左至右切出最长的词;逆向最大匹配法(BMM),对文本从右到左切出最长的词;N-最短路径方法;双向匹配分词法,由左到右,由右到左作两次扫描。后来,随着统计方法的迅速发展,人们又提出来基于统计模型(HMM 和 n 元语法)的分词方法,以及规则方法和统计方法相结合的分词技术。
### 基于词典
基于词典的方法是经典的传统分词方法,这种方式很直观,即从大规模的训练语料中提取分词词库,并同时将词语的词频统计出来,再可以通过逆向最大匹配、N-最短路径等分词方法对句子进行切分。基于词典的分词方法非常直观,可以很容易的通过增减词典来调整最终的分词效果,比如当发现某个新出现的名词无法被正确切分的时候,可以直接在词典当中进行添加,以达到正确切分的目的;同样的,过于依赖于词典也导致这种方法对于未登录词的处理不是很好,并且当词典当中的词出现公共子串的时候,就会出现歧义切分的问题,这就需要语料库足够的丰富,从而能够对每个词的频率有一个很好的设置。
### 基于模型的机器学习统计方法
这类方法主要围绕特定的模型,背后有相应的数学理论作支撑。比较著名的有隐马尔科夫模型(HMM )、条件随机场模型(CRF )、最大熵模型(ME )、N 元文法模型( N-gram)、支持向量机(SVM )等。其中还有基于深度学习的分词器,这里不一一介绍了。这类方法优缺点鲜明, 缺点是训练集需要大量人工标注语料、还要整理统计特征;优点则是不仅考虑词频,还考虑上下 文,可有效消除歧义、识别未登录词。
### 其他
分词处理的方法还有:
- 词向量转换/特征降维
- $TF-IDF$
TF 表示某个词语在一个语料中出现的频次; DF 表示在全部语料中,共有多少个语料出现了 IDF 是 DF 的倒数(取 log); TF-IDF 越大,表示这个词越重要。这常用于提取
- $TextRank$
根据词语之间的邻近关系构建网络,通过 PageRank 迭代计算出词语的排名�
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
目前情感倾向分析的主流方法有两类,其一是基于情感词典,这需要应用到标注好的情感词典,英文语料的各类词典数量庞大,而现有的中文语料的词典却不是很多,主要有知网整理的情感词典 Hownet 和台湾大学整理发布的 NTUSD 两个情感词典,还有哈工大信息检索研究室开源的《同义词词林》可以用于情感词典的扩充。在实践过程中我们选取了大连理工大学的情感词汇本体库进行基于词典的情感分析.第二种方法则是基于机器学习,其需要大量人工标注的语料作为训练集,并通过提取文本特征,构建分类器模型来实现情感分类。
资源推荐
资源详情
资源评论
收起资源包目录
基于Python实现有关话题数据所作的两极情感分析【100012299】 (2000个子文件)
2020-03-01-keywords.html 12KB
2020-03-05-keywords.html 12KB
2020-02-26-keywords.html 12KB
2020-03-11-keywords.html 12KB
2020-03-06-keywords.html 12KB
2020-02-23-keywords.html 12KB
2020-03-09-keywords.html 12KB
2020-03-08-keywords.html 12KB
2020-03-14-keywords.html 12KB
2020-03-04-keywords.html 12KB
2020-03-17-keywords.html 12KB
2020-03-15-keywords.html 12KB
2020-03-10-keywords.html 12KB
2020-03-12-keywords.html 12KB
2020-02-22-keywords.html 12KB
2020-03-16-keywords.html 12KB
2020-03-13-keywords.html 12KB
2020-02-21-keywords.html 12KB
2020-03-02-keywords.html 12KB
2020-02-25-keywords.html 12KB
2020-03-07-keywords.html 12KB
2020-02-29-keywords.html 12KB
2020-02-27-keywords.html 12KB
2020-02-24-keywords.html 12KB
2020-03-03-keywords.html 12KB
2020-02-28-keywords.html 12KB
stageCOVWeibo.json 3.35MB
2020-02-29-blog.json 2.07MB
2020-03-01-blog.json 1.75MB
2020-03-02-blog.json 1.62MB
2020-03-15-blog.json 1.59MB
2020-02-28-blog.json 1.58MB
2020-02-27-blog.json 1.54MB
2020-03-16-blog.json 1.53MB
2020-03-17-blog.json 1.43MB
2020-03-14-blog.json 1.38MB
2020-03-12-blog.json 1.34MB
2020-03-06-blog.json 1.34MB
2020-03-13-blog.json 1.31MB
2020-02-25-blog.json 1.29MB
2020-02-24-blog.json 1.29MB
2020-03-11-blog.json 1.27MB
2020-03-05-blog.json 1.26MB
2020-02-26-blog.json 1.24MB
2020-03-04-blog.json 1.22MB
2020-03-07-blog.json 1.2MB
2020-02-21-blog.json 1.19MB
2020-02-23-blog.json 1.17MB
2020-03-10-blog.json 1.16MB
2020-03-08-blog.json 1.16MB
2020-03-03-blog.json 1.13MB
2020-03-09-blog.json 1.11MB
2020-02-22-blog.json 1.05MB
2020-02-29-blog-Scored.json 604KB
2020-03-01-blog-Scored.json 569KB
2020-03-02-blog-Scored.json 513KB
2020-02-28-blog-Scored.json 481KB
2020-03-15-blog-Scored.json 459KB
2020-03-16-blog-Scored.json 445KB
2020-02-27-blog-Scored.json 441KB
2020-03-17-blog-Scored.json 428KB
2020-03-06-blog-Scored.json 414KB
2020-03-05-blog-Scored.json 405KB
2020-03-04-blog-Scored.json 398KB
2020-03-14-blog-Scored.json 397KB
2020-03-07-blog-Scored.json 397KB
2020-03-12-blog-Scored.json 388KB
2020-02-24-blog-Scored.json 383KB
2020-03-13-blog-Scored.json 379KB
2020-03-11-blog-Scored.json 376KB
2020-02-25-blog-Scored.json 372KB
2020-02-26-blog-Scored.json 368KB
2020-03-03-blog-Scored.json 359KB
2020-03-08-blog-Scored.json 356KB
2020-02-23-blog-Scored.json 353KB
2020-03-10-blog-Scored.json 352KB
2020-02-21-blog-Scored.json 346KB
2020-03-09-blog-Scored.json 337KB
2020-02-22-blog-Scored.json 306KB
2020-02-23-blog-COV.json 204KB
2020-03-03-blog-COV.json 202KB
2020-03-15-blog-COV.json 198KB
2020-03-01-blog-COV.json 167KB
2020-02-26-blog-COV.json 160KB
2020-03-02-blog-COV.json 158KB
2020-02-27-blog-COV.json 156KB
2020-02-21-blog-COV.json 152KB
2020-03-16-blog-COV.json 149KB
2020-03-07-blog-COV.json 141KB
2020-03-11-blog-COV.json 132KB
2020-03-17-blog-COV.json 131KB
2020-03-06-blog-COV.json 122KB
2020-03-13-blog-COV.json 119KB
2020-02-25-blog-COV.json 118KB
2020-03-04-blog-COV.json 113KB
2020-03-14-blog-COV.json 109KB
2020-03-05-blog-COV.json 107KB
2020-02-22-blog-COV.json 104KB
2020-02-24-blog-COV.json 104KB
2020-03-10-blog-COV.json 89KB
共 2000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 20
资源评论
神仙别闹
- 粉丝: 2704
- 资源: 7645
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功