# 一、项目简介
## 1背景
目前,情感倾向分析的方法主要分为两类:一种是基于情感词典的方法;一种是基于机器学习的方法,如基于大规模语料库的机器学习。前者需要用到标注好的情感词典,英文的词典有很多,中文主要有知网整理的情感词典Hownet和台湾大学整理发布的NTUSD两个情感词典,还有哈工大信息检索研究室开源的《同义词词林》可以用于情感词典的扩充。基于机器学习的方法则需要大量的人工标注的语料作为训练集,通过提取文本特征,构建分类器来实现情感的分类。
文本情感分析的分析粒度可以是词语、句子也可以是段落或篇章。段落篇章级情感分析主要是针对某个主题或事件进行倾向性判断,一般需要构建对应事件的情感词典,如电影评论的分析,需要构建电影行业自己的情感词典效果会比通用情感词典效果更好;也可以通过人工标注大量电影评论来构建分类器。句子级的情感分析大多事通过计算句子里包含的所有情感词的平均值来得到。
篇章级的情感分析,也可以通过聚合篇章中所有的句子的情感倾向来计算得出。因此,针对句子级的情感倾向分析,既能解决较短文本的情感分析,同时也可以是篇章级文本情感分析的基础。
## 2.过程流设计
* 使用情感词典方法的过程流 :
![](https://www.writebug.com/myres/static/uploads/2021/10/28/461448743e68d89250eee98524f2547e.writebug)
* 使用机器学习方法的过程流:
![](https://www.writebug.com/myres/static/uploads/2021/10/28/08096a78642d165af39344b2e0bbe115.writebug)
## 3算法设计
### 3.1机器学习算法设计
#### 3.1.1背景
机器学习的方法精确度更高,因为词典匹配会由于语义表达的丰富性而出现很大误差,而机器学习方法不会。而且它可使用的场景更多样。无论是主客观分类还是正负面情感分类,机器学习都可以完成任务。而无需像词典匹配那样要深入到词语、句子、语法这些层面。
而词典方法适用的语料范围更广,无论是手机、电脑这些商品,还是书评、影评这些语料,都可以适用。但机器学习则极度依赖语料,把手机语料训练出来的的分类器拿去给书评分类,那是注定要失败的。
使用机器学习进行情感分析,可以换一个相同意思的说法,就是用有监督的(需要人工标注类别)机器学习方法来对文本进行分类。
这点与词典匹配有着本质的区别。词典匹配是直接计算文本中的情感词,得出它们的情感倾向分值。而机器学习方法的思路是先选出一部分表达积极情感的文本和一部分表达消极情感的文本,用机器学习方法进行训练,获得一个情感分类器。再通过这个情感分类器对所有文本进行积极和消极的二分分类。最终的分类可以为文本给出0或1这样的类别,也可以给出一个概率值,比如”这个文本的积极概率是90%,消极概率是10%“。
Python 有良好的程序包可以进行情感分类,那就是Python 自然语言处理包,Natural Language Toolkit ,简称NLTK 。同时Python 也有良好的程序包可以进行对中文文本进行分析,如jiaba。
#### 3.1.2算法框架
![](https://www.writebug.com/myres/static/uploads/2021/10/28/c500a76f9aed4182878f78caf822ffd8.writebug)
#### 3.1.3数据集
先以带有正向标签和负向标签的各1500条真实的中文酒店评论语料作为训练集用以训练分类器,剩余带有正向标签和负向标签的各500条真实的中文酒店评论语料作为测试集测试不同分类算法、不同特征提取方法、不同维度的准确度。
最后选择准确度最高的方案,将上述带有正向标签和负向标签的各2000条真实的中文酒店评论语料作为训练集训练最终存储的分类器。
保存用户输入的语句和反馈,定期挑拣出新增的训练数据以优化分类器。
#### 3.1.4维度和权重
不同分类方法、不同征选取方法、不同维度得到的测试准确率如下表:
##### 以所有词为特征提取方法
| 分类算法 | 准确率 |
| ------------------ | ----- |
| BernoulliNB | 0.704 |
| MultinomiaNB | 0.864 |
| LogisticRegression | 0.836 |
| SVC | 0.555 |
| LinearSVC | 0.821 |
| NuSVC | 0.843 |
##### 以所有双词搭配为特征提取方法
| 分类算法 | 准确率 |
| ------------------ | ----- |
| BernoulliNB | 0.56 |
| MultinomiaNB | 0.854 |
| LogisticRegression | 0.827 |
| SVC | 0.513 |
| LinearSVC | 0.814 |
| NuSVC | 0.781 |
##### 以所有词和所有双词搭配为特征提取取方法
| 分类算法 | 准确率 |
| ------------------ | ----- |
| BernoulliNB | 0.64 |
| MultinomiaNB | 0.876 |
| LogisticRegression | 0.843 |
| SVC | 0.536 |
| LinearSVC | 0.846 |
| NuSVC | 0.842 |
##### 以信息量丰富的所有词为特征提取取方法
| 分类算法\维度 | 500 | 1000 | 1500 | 2000 | 2500 | 3000 | 3500 | 4000 | 4500 | 5000 | 5500 | 6000 | 6500 | 7000 | 7500 | 8000 | 8500 | 9000 |
| ------------------ | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- |
| BernoulliNB | 0.801 | 0.778 | 0.773 | 0.771 | 0.767 | 0.772 | 0.785 | 0.779 | 0.774 | 0.756 | 0.745 | 0.745 | 0.745 | 0.745 | 0.753 | 0.75 | 0.749 | 0.748 |
| MultinomiaNB | 0.857 | 0.863 | 0.864 | 0.869 | 0.866 | 0.869 | 0.87 | 0.877 | 0.872 | 0.875 | 0.877 | 0.877 | 0.877 | 0.877 | 0.877 | 0.877 | 0.874 | 0.874 |
| LogisticRegression | 0.827 | 0.832 | 0.825 | 0.836 | 0.832 | 0.834 | 0.838 | 0.84 | 0.837 | 0.839 | 0.837 | 0.837 | 0.837 | 0.837 | 0.84 | 0.837 | 0.838 | 0.838 |
| SVC | 0.806 | 0.742 | 0.714 | 0.688 | 0.674 | 0.664 | 0.639 | 0.61 | 0.591 | 0.584 | 0.571 | 0.571 | 0.571 | 0.571 | 0.57 | 0.565 | 0.565 | 0.565 |
| LinearSVC | 0.826 | 0.821 | 0.815 | 0.808 | 0.814 | 0.821 | 0.818 | 0.814 | 0.813 | 0.816 | 0.815 | 0.815 | 0.815 | 0.815 | 0.813 | 0.815 | 0.822 | 0.822 |
| NuSVC | 0.831 | 0.835 | 0.837 | 0.845 | 0.844 | 0.844 | 0.843 | 0.846 | 0.844 | 0.844 | 0.847 | 0.847 | 0.847 | 0.847 | 0.845 | 0.843 | 0.845 | 0.843 |
##### 以信息量丰富的所有词和所有双词搭配为特征选取方法
| 分类算法\维度 | 500 | 1000 | 1500 | 2000 | 2500 | 3000 | 3500 | 4000 | 4500 | 5000 | 5500 | 6000 | 6500 | 7000 | 7500 | 8000 | 8500 | 9000 |
| ------------------ | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- |
| BernoulliNB | 0.798 | 0.773 | 0.775 | 0.769 | 0.772 | 0.777 | 0.784 | 0.776 | 0.767 | 0.76 | 0.747 | 0.747 | 0.747 | 0.747 | 0.75 | 0.759 | 0.759 | 0.759 |
| MultinomiaNB | 0.854 | 0.863 | 0.867 | 0.871 | 0.871 | 0.874 | 0.874 | 0.874 | 0.874 | 0.876 | 0.876 | 0.876 | 0.876 | 0.876 | 0.877 | 0.873 | 0.873 | 0.873 |
| LogisticRegression | 0.828 | 0.831 | 0.829 | 0.834 | 0.834 | 0.832 | 0.834 | 0.834 | 0.834 | 0.839 | 0.837 | 0.837 | 0.837 | 0.837 | 0.836 | 0.835 | 0.835 | 0.835 |
| SVC | 0.806 | 0.739 | 0.712 | 0.688 | 0.671 | 0.659 | 0.633 | 0.604 | 0.595 | 0.583 | 0.565 | 0.565 | 0.565 | 0.565 | 0.565 | 0.565 | 0.565 | 0.565 |
| LinearSVC | 0.824 | 0.807 | 0.817 | 0.812 | 0.81 | 0.818 | 0.811 | 0.809 | 0.815 | 0.813 | 0.814 | 0.814 | 0.814 | 0.814 | 0.811 | 0.811 | 0.811 | 0.811 |
| NuSVC | 0.829 | 0.84 | 0.835 | 0.84 | 0.844 | 0.844 | 0.846 | 0.846 | 0.845 | 0.849 | 0.852 | 0.852 | 0.
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
基于AI算法实现的情感倾向分析的方法.zip (37190个子文件)
bootstrap.min.css 114KB
animate.min.css 45KB
font-awesome.min.css 23KB
templatemo-style.css 10KB
default.css 5KB
情感词汇本体库说明文档.doc 54KB
.DS_Store_utf8 0B
fontawesome-webfont.eot 59KB
icomoon.eot 2KB
.gitignore 7B
index.html 11KB
home-bg.jpg 202KB
team-img4.jpg 68KB
team-img2.jpg 66KB
team-img3.jpg 55KB
team-img1.jpg 53KB
portfolio-img4.jpg 40KB
portfolio-img2.jpg 30KB
portfolio-img1.jpg 27KB
portfolio-img3.jpg 25KB
jquery.js 91KB
jquery-2.1.1.min.js 82KB
bootstrap.min.js 35KB
underscore-min.js 16KB
typed.js 14KB
wow.min.js 7KB
jquery.progress.js 4KB
jquery.singlePageNav.min.js 2KB
custom.js 2KB
LICENSE 1KB
1754.md.md.md 61KB
README.md 61KB
Detailed Design.md 31KB
Requirement Specification.md 21KB
High-Level Design.md 19KB
readme.md 399B
README.md 100B
FontAwesome.otf 92KB
highlevel_design.pdf 1.48MB
High-Level Design.pdf 1.47MB
Detailed Design.pdf 1.03MB
Requirement Specification.pdf 852KB
README.pdf 70KB
neg_review.pkl 3.67MB
neg_review.pkl 2.46MB
pos_review.pkl 2.33MB
pos_review.pkl 1.52MB
neg_review.pkl 1.16MB
pos_review.pkl 844KB
classifier.pkl 387KB
best_words.pkl 123KB
test_review.pkl 3KB
原型.png 1.07MB
原型.png 1.07MB
class_total.png 690KB
class_total.png 690KB
KAOS.png 150KB
KAOS.png 150KB
usecase.png 132KB
usecase.png 132KB
词性表.png 100KB
algorithm_dic.png 96KB
algorithm_dic.png 96KB
usecase1.png 87KB
usecase1.png 87KB
机器学习算法框架.png 68KB
机器学习算法框架.png 68KB
class_design_sample.png 61KB
class_design_sample.png 61KB
seq2.png 59KB
seq2.png 59KB
seq1.png 56KB
seq1.png 56KB
usecase9.png 41KB
usecase9.png 41KB
SampleModel.png 31KB
SampleModel.png 31KB
技术架构.png 28KB
技术架构.png 28KB
业务架构.png 27KB
业务架构.png 27KB
EmotionDictionary.png 24KB
EmotionDictionary.png 24KB
usecase4.png 13KB
usecase4.png 13KB
usecase5.png 12KB
usecase5.png 12KB
usecase3.png 12KB
usecase3.png 12KB
usecase2.png 12KB
usecase2.png 12KB
部署结构.png 11KB
部署结构.png 11KB
pos.png 3KB
neg.png 2KB
main.py 21KB
extract_word_pair.py 7KB
use_dalianligong_dic.py 6KB
load_dic.py 4KB
settings.py 3KB
共 37190 条
- 1
- 2
- 3
- 4
- 5
- 6
- 372
资源评论
程序员奇奇
- 粉丝: 3w+
- 资源: 294
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- keil2 + proteus + 8051.exe
- 1961ee27df03bd4595d28e24b00dde4e_744c805f7e4fb4d40fa3f695bfbab035_8(1).c
- mediapipe-0.9.0.1-cp37-cp37m-win-amd64.whl.zip
- windows注册表编辑工具
- mediapipe-0.9.0.1-cp37-cp37m-win-amd64.whl.zip
- 校园通行码预约管理系统20240522075502
- 车类型数据集6250张VOC+YOLO格式.zip
- The PyTorch implementation of STGCN.STGCN-main.zip
- 092300108.cpp
- 车类型数据集6000张VOC+YOLO格式.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功