# SentimentAnalysis
基于深度学习(LSTM)的情感分析(京东商城数据)
## 实验目的
通过LSTM算法,实现电商评论的情感分析。
## 实验流程
* 对京东网站进行分析,并且通过分布式爬虫进行数据采集
* 对采集到的数据进行清洗,包括删掉重复数据,删掉垃圾数据等
* 对清理好的数据进行分词,停词等操作,并对结果保存到新的文档
* 将分词之后的数据,通过word2vec,建立词向量和索引表
* 对清洗后的数据,进行数据处理,将分数为1、2的定为不满意,将分数为3,4,5的定为满意
* 平衡正负样本数据,并且通过样本数据选出合适的文本长度值
* 词响亮与标签结合,生成可供训练的样本数据
* 建立分批(batch)函数
* 通过Tensorflow中的rnn模块进行lstm建模
* 开始训练,每1000次输出一次结果,每10000次,保存一下模型
* 绘制loss和accurate图像
## 优化意见
* 采集数据转化为样本数据的过程可以更加合理,例如保留原始的1-5级评分作为情感程度(满意程度),将现有二分类问题变为多分类问题,同时通过其他用户对评论判定的“有用/无用”来对评价进行一个加权,例如有用>无用,情感程度加深,否则情感程度衰减,这样会使样本数据更加科学;
* 分词的时候和去除停用词的时候,将部分标点符号和一些语气词删掉了,但是实际上这些词很可能会严重影响表达情绪,所以在优化的时候可以考虑这部分词汇单独处理或者进行部分转化;
* 最佳句子长度选择的时候,超过该长度的样本进行切割,但是实际上这种方法可能会切割掉部分影响比较大的词汇,所以这里可以通过TF_IDF来进行一个权重计算,然后权重从高到低排序,再按照排序后的词汇进行切割,这样会尽可能地保留原句特征;
## 实验总结
情感分析是一项非常重要的工作,无论是对商品满意度,电影满意度,政府满意度或者是群众情绪导向等多个领域,情感分析都是饰演着重要的角色,本实验通过大规模分布式爬虫对数据进行采集,获得到了目标数据,然后进行了数据处理,通过word2vec模型建立出了词向量和索引,在通过LSTM算法,进行了模型训练,根据最终的结果可以看到,整个实验效果还不错的,整体趋势是在朝着准确率逐渐升高,损失逐渐降低的趋势发展,算是完成了本次试验的基本目标。但是本实验也有一些不足,通过优化意见部分,已经详细列出。
## 额外说明
* 本实验主要采用了Scrapy-redis构建了分布式爬虫系统,采用了Tensorflow构建了LSTM模型,采用了gensim构建了word2vec词向量等
* 本实验有任何问题可以与我取得联系:service@52exe.cn
## 运行图
* 爬虫爬区结果总览(由于时间有限,并没有爬过多数据)
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/1.png?raw=true)
* 爬虫爬取结果详情(部分)
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/2.png?raw=true)
* 清洗之后的语料库
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/3.png?raw=true)
* 分词之后的语料库
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/4.png?raw=true)
* 样本中的句子长度分布图
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/5.png?raw=true)
* loss与accurate图
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/6.png?raw=true)
* 运行结果截图(部分)
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/7.png?raw=true)
没有合适的资源?快使用搜索试试~ 我知道了~
Python-基于深度学习LSTM的情感分析京东商城数据
共39个文件
py:8个
png:7个
data-00000-of-00001:6个
5星 · 超过95%的资源 需积分: 48 78 下载量 76 浏览量
2019-08-10
01:58:00
上传
评论 15
收藏 164.28MB ZIP 举报
温馨提示
实验目的:通过LSTM算法,实现电商评论的情感分析。
资源推荐
资源详情
资源评论
收起资源包目录
Python-基于深度学习LSTM的情感分析京东商城数据.zip (39个子文件)
SentimentAnalysis-master
SentimentAnalysis
jd_comments_181_7_model.model 64.08MB
models
jd_comments_181_7_model.model.lstm_model-30000.data-00000-of-00001 1.46MB
jd_comments_181_7_model.model.lstm_model-10000.data-00000-of-00001 1.46MB
jd_comments_181_7_model.model.lstm_model-30000.index 564B
pretrained_lstm.ckpt-20000.data-00000-of-00001 975KB
pretrained_lstm.ckpt-10000.data-00000-of-00001 975KB
jd_comments_181_7_model.model.lstm_model-40000.meta 20.32MB
pretrained_lstm.ckpt-20000.index 564B
jd_comments_181_7_model.model.lstm_model-40000.data-00000-of-00001 1.46MB
pretrained_lstm.ckpt-10000.meta 20.32MB
jd_comments_181_7_model.model.lstm_model-10000.index 564B
jd_comments_181_7_model.model.lstm_model-40000.index 564B
jd_comments_181_7_model.model.lstm_model-20000.data-00000-of-00001 1.46MB
pretrained_lstm.ckpt-10000.index 564B
jd_comments_181_7_model.model.lstm_model-10000.meta 20.32MB
jd_comments_181_7_model.model.lstm_model-20000.meta 20.32MB
jd_comments_181_7_model.model.lstm_model-30000.meta 20.32MB
pretrained_lstm.ckpt-20000.meta 20.32MB
jd_comments_181_7_model.model.lstm_model-20000.index 564B
checkpoint 380B
run.py 8KB
StopwordsCN.txt 8KB
picDic
4.png 658KB
3.png 386KB
7.png 260KB
5.png 47KB
1.png 118KB
2.png 443KB
6.png 144KB
readme.txt 70B
JDSpider
scrapy.cfg 260B
JDSpider
settings.py 4KB
pipelines.py 685B
middlewares.py 4KB
__init__.py 0B
items.py 287B
spiders
getComments.py 3KB
__init__.py 161B
README.md 4KB
共 39 条
- 1
资源评论
- 普通网友2021-07-05基于深度学习的LSTM情感分析 网盘地址:https://pan.baidu.com/s/1DIzQ0anh-Cq_SbUqAE19NA 提取码: 12xt 备用地址(腾讯微云):https://share.weiyun.com/D1CNrpzI 密码:f7ay8w
weixin_39841848
- 粉丝: 509
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功