# SentimentAnalysis
基于深度学习(LSTM)的情感分析(京东商城数据)
## 实验目的
通过LSTM算法,实现电商评论的情感分析。
## 实验流程
* 对京东网站进行分析,并且通过分布式爬虫进行数据采集
* 对采集到的数据进行清洗,包括删掉重复数据,删掉垃圾数据等
* 对清理好的数据进行分词,停词等操作,并对结果保存到新的文档
* 将分词之后的数据,通过word2vec,建立词向量和索引表
* 对清洗后的数据,进行数据处理,将分数为1、2的定为不满意,将分数为3,4,5的定为满意
* 平衡正负样本数据,并且通过样本数据选出合适的文本长度值
* 词响亮与标签结合,生成可供训练的样本数据
* 建立分批(batch)函数
* 通过Tensorflow中的rnn模块进行lstm建模
* 开始训练,每1000次输出一次结果,每10000次,保存一下模型
* 绘制loss和accurate图像
## 优化意见
* 采集数据转化为样本数据的过程可以更加合理,例如保留原始的1-5级评分作为情感程度(满意程度),将现有二分类问题变为多分类问题,同时通过其他用户对评论判定的“有用/无用”来对评价进行一个加权,例如有用>无用,情感程度加深,否则情感程度衰减,这样会使样本数据更加科学;
* 分词的时候和去除停用词的时候,将部分标点符号和一些语气词删掉了,但是实际上这些词很可能会严重影响表达情绪,所以在优化的时候可以考虑这部分词汇单独处理或者进行部分转化;
* 最佳句子长度选择的时候,超过该长度的样本进行切割,但是实际上这种方法可能会切割掉部分影响比较大的词汇,所以这里可以通过TF_IDF来进行一个权重计算,然后权重从高到低排序,再按照排序后的词汇进行切割,这样会尽可能地保留原句特征;
## 实验总结
情感分析是一项非常重要的工作,无论是对商品满意度,电影满意度,政府满意度或者是群众情绪导向等多个领域,情感分析都是饰演着重要的角色,本实验通过大规模分布式爬虫对数据进行采集,获得到了目标数据,然后进行了数据处理,通过word2vec模型建立出了词向量和索引,在通过LSTM算法,进行了模型训练,根据最终的结果可以看到,整个实验效果还不错的,整体趋势是在朝着准确率逐渐升高,损失逐渐降低的趋势发展,算是完成了本次试验的基本目标。但是本实验也有一些不足,通过优化意见部分,已经详细列出。
## 额外说明
* 本实验主要采用了Scrapy-redis构建了分布式爬虫系统,采用了Tensorflow构建了LSTM模型,采用了gensim构建了word2vec词向量等
* 本实验有任何问题可以与我取得联系:service@52exe.cn
## 运行图
* 爬虫爬区结果总览(由于时间有限,并没有爬过多数据)
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/1.png?raw=true)
* 爬虫爬取结果详情(部分)
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/2.png?raw=true)
* 清洗之后的语料库
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/3.png?raw=true)
* 分词之后的语料库
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/4.png?raw=true)
* 样本中的句子长度分布图
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/5.png?raw=true)
* loss与accurate图
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/6.png?raw=true)
* 运行结果截图(部分)
![首页展示](https://github.com/anycodes/SentimentAnalysis/blob/master/picDic/7.png?raw=true)
没有合适的资源?快使用搜索试试~ 我知道了~
基于深度学习(LSTM)的情感分析(京东商城数据).zip
共39个文件
py:8个
png:7个
meta:6个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 10 浏览量
2024-05-22
19:07:14
上传
评论
收藏 164.28MB ZIP 举报
温馨提示
基于深度学习(LSTM)的情感分析(京东商城数据)LSTM (Long Short-Term Memory) 是一种特殊的循环神经网络(RNN)架构,用于处理具有长期依赖关系的序列数据。传统的RNN在处理长序列时往往会遇到梯度消失或梯度爆炸的问题,导致无法有效地捕捉长期依赖。LSTM通过引入门控机制(Gating Mechanism)和记忆单元(Memory Cell)来克服这些问题。 以下是LSTM的基本结构和主要组件: 记忆单元(Memory Cell):记忆单元是LSTM的核心,用于存储长期信息。它像一个传送带一样,在整个链上运行,只有一些小的线性交互。信息很容易地在其上保持不变。 输入门(Input Gate):输入门决定了哪些新的信息会被加入到记忆单元中。它由当前时刻的输入和上一时刻的隐藏状态共同决定。 遗忘门(Forget Gate):遗忘门决定了哪些信息会从记忆单元中被丢弃或遗忘。它也由当前时刻的输入和上一时刻的隐藏状态共同决定。 输出门(Output Gate):输出门决定了哪些信息会从记忆单元中输出到当前时刻的隐藏状态中。同样地,它也由当前时刻的输入和上一时刻的隐藏状态共同决定。 LSTM的计算过程可以大致描述为: 通过遗忘门决定从记忆单元中丢弃哪些信息。 通过输入门决定哪些新的信息会被加入到记忆单元中。 更新记忆单元的状态。 通过输出门决定哪些信息会从记忆单元中输出到当前时刻的隐藏状态中。 由于LSTM能够有效地处理长期依赖关系,它在许多序列建模任务中都取得了很好的效果,如语音识别、文本生成、机器翻译、时序预测等。
资源推荐
资源详情
资源评论
收起资源包目录
基于深度学习(LSTM)的情感分析(京东商城数据).zip (39个子文件)
content
picDic
3.png 386KB
1.png 118KB
6.png 144KB
5.png 47KB
4.png 658KB
7.png 260KB
2.png 443KB
readme.txt 70B
JDSpider
scrapy.cfg 260B
JDSpider
__init__.py 0B
pipelines.py 685B
spiders
__init__.py 161B
getComments.py 3KB
items.py 287B
settings.py 4KB
middlewares.py 4KB
README.md 4KB
SentimentAnalysis
jd_comments_181_7_model.model 64.08MB
run.py 8KB
StopwordsCN.txt 8KB
models
pretrained_lstm.ckpt-10000.data-00000-of-00001 975KB
checkpoint 380B
pretrained_lstm.ckpt-20000.data-00000-of-00001 975KB
jd_comments_181_7_model.model.lstm_model-10000.meta 20.32MB
pretrained_lstm.ckpt-10000.meta 20.32MB
jd_comments_181_7_model.model.lstm_model-20000.index 564B
jd_comments_181_7_model.model.lstm_model-30000.index 564B
pretrained_lstm.ckpt-20000.meta 20.32MB
jd_comments_181_7_model.model.lstm_model-40000.data-00000-of-00001 1.46MB
jd_comments_181_7_model.model.lstm_model-30000.meta 20.32MB
pretrained_lstm.ckpt-10000.index 564B
jd_comments_181_7_model.model.lstm_model-20000.meta 20.32MB
jd_comments_181_7_model.model.lstm_model-30000.data-00000-of-00001 1.46MB
jd_comments_181_7_model.model.lstm_model-40000.index 564B
jd_comments_181_7_model.model.lstm_model-20000.data-00000-of-00001 1.46MB
jd_comments_181_7_model.model.lstm_model-40000.meta 20.32MB
jd_comments_181_7_model.model.lstm_model-10000.data-00000-of-00001 1.46MB
jd_comments_181_7_model.model.lstm_model-10000.index 564B
pretrained_lstm.ckpt-20000.index 564B
共 39 条
- 1
资源评论
生瓜蛋子
- 粉丝: 3828
- 资源: 5775
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 数据库管理工具:dbeaver-ce-23.1.5-stable.x86-64.rpm
- 以下是一些适用于英语六级作文的万能句型模板,涵盖了引言、正文和结论部分的各类表达方式.docx
- MATLAB中的非线性规划
- 进行C语言面试资格确认是招聘过程中一个重要的步骤,目的是确保候选人具备足够的C语言编程能力和知识.docx
- Java 轻量级的集群负载均衡设计
- 纹身师个人网站模板.jpg
- 在C语言中,连接两个字符串(即将一个字符串附加到另一个字符串的末尾)通常可以使用标准库中的 `strcat` 函数.docx
- 数据库管理工具:dbeaver-ce-23.1.1-stable.x86-64.rpm
- 以下是几个具体竞赛题目的详细解答,包括建模思路、方法和步骤 .docx
- 一份关于全国大学生建模大赛的相关教程!!
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功