# SentimentAnalysis
基于深度学习(LSTM)的情感分析(京东商城数据)
## 实验目的
通过LSTM算法,实现电商评论的情感分析。
## 实验流程
* 对京东网站进行分析,并且通过分布式爬虫进行数据采集
* 对采集到的数据进行清洗,包括删掉重复数据,删掉垃圾数据等
* 对清理好的数据进行分词,停词等操作,并对结果保存到新的文档
* 将分词之后的数据,通过word2vec,建立词向量和索引表
* 对清洗后的数据,进行数据处理,将分数为1、2的定为不满意,将分数为3,4,5的定为满意
* 平衡正负样本数据,并且通过样本数据选出合适的文本长度值
* 词响亮与标签结合,生成可供训练的样本数据
* 建立分批(batch)函数
* 通过Tensorflow中的rnn模块进行lstm建模
* 开始训练,每1000次输出一次结果,每10000次,保存一下模型
* 绘制loss和accurate图像
## 优化意见
* 采集数据转化为样本数据的过程可以更加合理,例如保留原始的1-5级评分作为情感程度(满意程度),将现有二分类问题变为多分类问题,同时通过其他用户对评论判定的“有用/无用”来对评价进行一个加权,例如有用>无用,情感程度加深,否则情感程度衰减,这样会使样本数据更加科学;
* 分词的时候和去除停用词的时候,将部分标点符号和一些语气词删掉了,但是实际上这些词很可能会严重影响表达情绪,所以在优化的时候可以考虑这部分词汇单独处理或者进行部分转化;
* 最佳句子长度选择的时候,超过该长度的样本进行切割,但是实际上这种方法可能会切割掉部分影响比较大的词汇,所以这里可以通过TF_IDF来进行一个权重计算,然后权重从高到低排序,再按照排序后的词汇进行切割,这样会尽可能地保留原句特征;
## 实验总结
情感分析是一项非常重要的工作,无论是对商品满意度,电影满意度,政府满意度或者是群众情绪导向等多个领域,情感分析都是饰演着重要的角色,本实验通过大规模分布式爬虫对数据进行采集,获得到了目标数据,然后进行了数据处理,通过word2vec模型建立出了词向量和索引,在通过LSTM算法,进行了模型训练,根据最终的结果可以看到,整个实验效果还不错的,整体趋势是在朝着准确率逐渐升高,损失逐渐降低的趋势发展,算是完成了本次试验的基本目标。但是本实验也有一些不足,通过优化意见部分,已经详细列出。
## 额外说明
* 本实验主要采用了Scrapy-redis构建了分布式爬虫系统,采用了Tensorflow构建了LSTM模型,采用了gensim构建了word2vec词向量等
* 本实验有任何问题可以与我取得联系:service@52exe.cn
## 运行图
* 爬虫爬区结果总览(由于时间有限,并没有爬过多数据)
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/1.png?raw=true)
* 爬虫爬取结果详情(部分)
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/2.png?raw=true)
* 清洗之后的语料库
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/3.png?raw=true)
* 分词之后的语料库
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/4.png?raw=true)
* 样本中的句子长度分布图
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/5.png?raw=true)
* loss与accurate图
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/6.png?raw=true)
* 运行结果截图(部分)
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/7.png?raw=true)
荒野大飞
- 粉丝: 1w+
- 资源: 2797
最新资源
- 本文用MATLAB编写了一种基于颜色衰减先验的快速单幅图像去雾算法.zip
- 本文中使用的SYNDOF生成的官方matlab实现使用域自适应CVPR 2019进行深度离焦地图估计.zip
- 本项目基于MATLAB完成数字验证码识别的GUI设计图像处理验证码识别等功能采用多种方法完成图像二值化最终验证码图像识.zip
- 毕设文章以及文中的MATLAB以及那段时间帮同学们写的MATLAB编码元胞自动机Cellular Automata遗传.zip
- 编译用于研究工作实验部分的不同MATLAB代码,这篇文章介绍了基于强度调制的下一代5G ofdm调制直接检测IMDD光.zip
- 部分可分解圆锥优化程序的开源MATLAB ADMM求解器.zip
- 边界元建模故障和变形MATLAB代码.zip
- 车辆避碰网络模型预测控制的MATLAB仿真.zip
- 常用图像质量评价指标FID SIFID CleanFID LPIPS和Scoot PSNR SSIM FSIM MAE.zip
- 出版书籍机器学习入门到实践MATLAB实践应用一书中的实例程序涉及监督学习非监督学习和强化学习code for boo.zip
- 超声b模速度应变和弹性图处理的MATLAB GUI.zip
- 处理雷达数据的matlab程序包.zip
- 处理二维和三维有限元网格的MATLAB工具箱.zip
- 传递熵估计的开源MATLAB工具箱.zip
- 传统方法语音增强matlab实现 1谱减法 2维纳滤波法 3卡尔曼滤波法.zip
- 此 MATLAB 和 Simulink 挑战赛项目中心包含研究和设计项目创意列表.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈