## 基于 LSTM 的中文评论情感分析
本文使用[**Keras**](https://keras.io/)框架搭建对于中文商品评论的情感分析模型。训练 2 个 epoch 后在测试集上的准确率为 90.42%。
[preprocess.py](https://github.com/yang-zhou-x/assignments/blob/master/lstm_sentiment_analysis/preprocess.py) 数据预处理
[models.py](https://github.com/yang-zhou-x/assignments/blob/master/lstm_sentiment_analysis/models.py) 模型定义
[train.py](https://github.com/yang-zhou-x/assignments/blob/master/lstm_sentiment_analysis/train.py) 训练模型
[predict.py](https://github.com/yang-zhou-x/assignments/blob/master/lstm_sentiment_analysis/predict.py) 模型推理
对于文本的预处理包括标识化处理、移除停用词和标点符号、移除英文和数字、序列对齐等。
运行过程:
![](https://www.writebug.com/myres/static/uploads/2022/1/2/9638a02e9336a5f7930185fb4f9e5d29.writebug)
模型结构:
![](https://www.writebug.com/myres/static/uploads/2022/1/2/afe50a9268d3aa1a4e9b3b2b0c23e51f.writebug)
**文本情感分析**:又被称为意见挖掘、倾向性分析、观点提取等,是指通过自然语言处理、文本挖掘方法等技术来识别和提取文本素材中所含的主观情绪信息。常见的应用包括给定一段文本,判断其所含有的是正面情绪还是负面情绪,本质上可以视作一个二分类问题。举例而言,商品评价“值得推荐!希望大家都读一下很有用的”是正向的,标签记为 1;商品评价“像素低的很,还有破损”是负向的,标签记为 0。
情感分析的应用非常广泛,比较知名的有依靠社交网站 Twitter 的上公开信息进行情感分析以预测股市的走势,准确率可以达到 87.6%,原文地址:[Twitter mood predicts the stock market](https://arxiv.org/pdf/1010.3003.pdf)
## 数据来源
商品评论数据集已经在**文件夹 datasets**。来自于 [https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/online_shopping_10_cats/intro.ipynb](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/online_shopping_10_cats/intro.ipynb)。包含衣物、计算机、书籍、平板、水果等 10 个类别的 6 万余条评论数据,并且已标记好正向或负向。其中正向评论 31728 条,负向评论 31046 条,比例接近 1:1,较为均衡。该数据集同时也上传到了/datasets 目录下。
中文停用词数据集来自网络,已上传至/datasets 目录下。
## 测试
这里随便找了两个漱口水的商品评论。等有时间了再多找一些。
测试文本:
![](https://www.writebug.com/myres/static/uploads/2022/1/2/dadff0d0ce38141e491a8091f7efb20f.writebug)
输出的结果:
![](https://www.writebug.com/myres/static/uploads/2022/1/2/274c570631830642e4f81f7c974094e9.writebug)
上面两个.txt 文件都在/datasets 目录下。
在英特尔 8 代低压 i5 四核处理器(i5-8259u)上的推理速度:
![](https://www.writebug.com/myres/static/uploads/2022/1/2/7e7057f45c4918e94ad311f5d7e3d832.writebug)
## 环境配置
CUDA==9.2
cuDNN==7.3.1
tensorflow-gpu==1.13.1
Keras==2.2.4
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
资源包含文件:设计报告word+项目源码及数据 本文使用Keras框架搭建对于中文商品评论的情感分析模型。训练 2 个 epoch 后在测试集上的准确率为 90.42%。 preprocess.py 数据预处理 models.py 模型定义 train.py 训练模型 predict.py 模型推理 对于文本的预处理包括标识化处理、移除停用词和标点符号、移除英文和数字、序列对齐等。 详细介绍参考:https://biyezuopin.blog.csdn.net/article/details/125665844
资源推荐
资源详情
资源评论
收起资源包目录
Python实现基于LSTM的中文评论情感分析.zip (15个子文件)
设计报告.docx 586KB
models.py 9KB
train.py 4KB
predict.py 2KB
LICENSE 1KB
preprocess.py 8KB
saved_models
README.md 46B
README.md 3KB
datasets
intro.ipynb 24KB
cn_stopwords_punctuations.csv 11KB
result.txt 14B
online_shopping_10_cats.7z 3.02MB
test.txt 416B
online_shopping_10_cats
online_shopping_10_cats.csv 10.78MB
README.md 61B
共 15 条
- 1
shejizuopin
- 粉丝: 1w+
- 资源: 1300
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
- 3
前往页