# 基于循环神经网络(RNN)的评论情感分类
使用循环神经网络,完成对影评的情感(正面、负面)分类。
训练使用的数据集为[https://www.cs.cornell.edu/people/pabo/movie-review-data/](https://www.cs.cornell.edu/people/pabo/movie-review-data/)上的[sentence polarity dataset v1.0](https://www.cs.cornell.edu/people/pabo/movie-review-data/rt-polaritydata.tar.gz),包含正负面评论各5331条。
由于数据集较小,模型的泛化能力不是很好。
当训练集、开发集、测试集的分布为[0.8,0.1,0.1],训练2000个batch_size=64的mini_batch时,模型在各数据集上的acc表现大致如下:
- 训练集 0.95
- 开发集 0.79
- 测试集 0.80
详情请移步我的博客[使用循环神经网络(RNN)实现影评情感分类](http://blog.csdn.net/aaronjny/article/details/79561115)
-------------------
## 说明
**1.数据预处理**
数据下载下来之后需要进行解压,得到`rt-polarity.neg`和`rt-polarity.pos`文件,这两个文件是`Windows-1252`编码的,先将它转成`unicode`处理起来会更方便。
数据预处理过程包括:
- 转码
- 生成词汇表
- 借助词汇表将影评转化为词向量
- 填充词向量并转化为np数组
- 按比例划分数据集(训练、开发、测试)
- 打乱数据集,写入文件
```cmd
python process_data.py
```
**2.模型编写**
使用RNN完成分类功能,建模过程大致如下:
- 使用embedding构建词嵌入矩阵
- 使用LSTM作为循环神经网络的基本单元
- 对embedding和LSTM进行随机失活(dropout)
- 建立深度为2的深度循环神经网络
- 对深度循环神经网络的最后的输出做逻辑回归,通过sigmod判定类别
**3.模型训练**
训练:
- 使用移动平均
- 使用学习率指数衰减
```cmd
python train.py
```
**4.模型验证**
`eval.py`中存在如下代码:
```python
data = dataset.Dataset(0)
```
`Dataset`的参数,0代表验证训练集数据,1代表验证开发集数据,2代表验证测试集数据。
```cmd
python eval.py
```
**5.模型配置**
可配置参数集中在`settings`中。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
Python基于循环神经网络(RNN)的评论情感分类+源代码+文档说明+数据集+博客介绍 1.数据预处理 数据下载下来之后需要进行解压,得到rt-polarity.neg和rt-polarity.pos文件,这两个文件是Windows-1252编码的,先将它转成unicode处理起来会更方便。 数据预处理过程包括: 转码 生成词汇表 借助词 - 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! <项目介绍> 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
资源推荐
资源详情
资源评论
收起资源包目录
emotional_classification_with_rnn-master (1).zip (11个子文件)
emotional_classification_with_rnn-master
utils.py 1KB
eval.py 1KB
data
rt-polarity.pos 611KB
rt-polarity.neg 598KB
dataset.py 1KB
models.py 5KB
.gitignore 2KB
process_data.py 5KB
settings.py 1KB
train.py 1KB
README.md 2KB
共 11 条
- 1
资源评论
- 祁沉2024-03-06资源很实用,对我启发很大,有很好的参考价值,内容详细。
机智的程序员zero
- 粉丝: 1593
- 资源: 4137
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功