<div align="left">
<img src='https://ftp.bmp.ovh/imgs/2020/08/b77a8439ea51e080.jpg' height="50" width="50" >
</div>
![weibo](https://badgen.net/badge/weibo/NLP/cyan?icon=github)
![GitHub license](https://badgen.net/github/license/HUANGZHIHAO1994/weibo-analysis-and-visualization?color=green)
![stars](https://badgen.net/github/stars/HUANGZHIHAO1994/weibo-analysis-and-visualization)
![forks](https://badgen.net/github/forks/HUANGZHIHAO1994/weibo-analysis-and-visualization?color=red)
![python](https://badgen.net/badge/python/%3E=3.6/8d6fe7)
# 微博文本分析和可视化
## 0. 数据来源和结构
新浪微博,爬虫链接:
[https://github.com/HUANGZHIHAO1994/weibospider-keyword](https://github.com/nghuyong/WeiboSpider)
微博内容数据结构(mongo数据库导出的json文档)
```
content_example:
[
{'_id': '1177737142_H4PSVeZWD', 'keyword': 'A股', 'crawl_time': '2019-06-01 20:31:13', 'weibo_url': 'https://weibo.com/1177737142/H4PSVeZWD', 'user_id': '1177737142', 'created_at': '2018-11-29 03:02:30', 'tool': 'Android', 'like_num': {'$numberInt': '0'}, 'repost_num': {'$numberInt': '0'}, 'comment_num': {'$numberInt': '0'}, 'image_url': 'http://wx4.sinaimg.cn/wap180/4632d7b6ly1fxod61wktyj20u00m8ahf.jpg', 'content': '#a股观点# 鲍威尔主席或是因为被特朗普总统点名批评后萌生悔改之意,今晚一番讲话被市场解读为美联储或暂停加息步伐。美元指数应声下挫,美股及金属贵金属价格大幅上扬,A50表现也并不逊色太多。对明天A股或有积极影响,反弹或能得以延续。 [组图共2张]'},...
]
```
微博评论数据结构(mongo数据库导出的json文档)
```
comment_example:
[
{'_id': 'C_4322161898716112', 'crawl_time': '2019-06-01 20:35:36', 'weibo_url': 'https://weibo.com/1896820725/H9inNf22b', 'comment_user_id': '6044625121', 'content': '没问题,', 'like_num': {'$numberInt': '0'}, 'created_at': '2018-12-28 11:19:21'},...
]
```
## 1. 数据预处理
1. **prepro.py、pre_graph.py、senti_pre.py**
为了应对各种分析需求,需要数据预处理,具体所需数据文件类型和输出的结果数据结构见这三个py文件
PS:
**prepro.py** 运行时根据需要修改123、143、166行三处代码
**pre_graph.py** 运行时根据需要修改127、140行两处代码
**senti_pre.py** 运行时根据需要修改第119行代码
2. **zh_wiki.py、langconv.py**
这两个py文件是用于繁体转简体的无需修改
# 2. 数据分析和可视化
1. **词云:wc.py**(需要跑完prepro.py)
根据需要修改3、19、26行代码
<div>
<img
src='https://ftp.bmp.ovh/imgs/2020/08/a5905208795f2ac7.png?raw=true'
>
</div>
<div>
<img
src='https://ftp.bmp.ovh/imgs/2020/08/fa51683f710a6473.png?raw=true'
>
</div>
2. **热度地图:** **map.py**(需要跑完prepro.py)
根据需要修改第8行代码
<div>
<img
src='https://ftp.bmp.ovh/imgs/2020/08/50a61c72f949a0b9.png?raw=true'
>
</div>
3. **转发、评论、点赞时间序列:** **line.py**(需要跑完senti_pre.py 和 senti_analy.py)
<div>
<img
src='https://ftp.bmp.ovh/imgs/2020/08/450a55ff983db14a.png?raw=true'
>
</div>
4. **微博评论关系图:** **graph.py**(需要跑完pre_graph.py)
([参考](https://blog.csdn.net/Kevin_HZH/article/details/91043392))
<div>
<img
src='https://ftp.bmp.ovh/imgs/2020/08/6848edc9ac9a4a5a.png?raw=true'
>
</div>
5. **文本聚类:** **cluster_tfidf.py** 和 **cluster_w2v.py**(需要跑完prepro.py)
<div>
<img
src='https://ftp.bmp.ovh/imgs/2020/08/6981da3109f690ac.png?raw=true'
>
</div>
<div>
<img
src='https://ftp.bmp.ovh/imgs/2020/08/83226f9c65632680.png?raw=true'
>
</div>
6. **LDA主题模型分析:** **LDA.py**(需要跑完senti_pre.py)**tree.py**(需要跑完senti_analy.py)
<div>
<img
src='https://ftp.bmp.ovh/imgs/2020/08/7f5d68f1397c3732.png?raw=true'
>
</div>
7. **情感分析(词典):** **senti_analy.py**(需要跑完senti_pre.py)**3Dbar.py**(需要跑完senti_analy.py)**pie.py**(需要跑完senti_analy.py)
<div>
<img
src='https://ftp.bmp.ovh/imgs/2020/08/fc6e429690f5db99.png?raw=true'
>
</div>
8. **情感分析(W2V+LSTM):Sentiment-Analysis-master文档中的senti_lstm.py**(需要跑完senti_pre.py)
看情况修改250行代码
有些文档太大,放在百度网盘链接中:
链接:https://pan.baidu.com/s/1l447d3d6OSd_yAlsF7b_mA
提取码:og9t
9. **文本相似度分析:similar.py**(仅供参考)
10. **其他可供参考:** **senti_analy_refer.py、Sentiment_lstm.py**
11. **有关Senti_Keyword_total_id.csv:**
下载8.百度网盘中Senti_Keyword_total_id.csv即可,以下是解释:
该文件几乎和Senti_Keyword_total.csv相同,只是多了一列weibo_id(此处不再给出生成Senti_Keyword_total_id.csv的代码,直接给生成的文档,
生成Senti_Keyword_total_id.csv可改写**senti_analy.py**,增加一列weibo_id),
8中的百度网盘(有Senti_Keyword_total_id.csv和Senti_Keyword_total.csv,还有全部comment和全部content),
由于lines.py等需要全部关键词,因此需要用**senti_analy.py**直接跑全部comment.json和content.json生成Senti_Keyword_total.csv(直接从网盘下来Senti_Keyword_total_id.csv再跑lines.py,3Dbar.py,pie.py即可)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
基于python抓取微博数据并对微博文本分析和可视化项目源码-LDA(树图)含文档说明,含有代码注释,新手也可看懂,个人手打98分项目,导师非常认可的高分项目,毕业设计、期末大作业和课程设计高分必看,下载下来,简单部署,就可以使用。该项目可以直接作为毕设、期末大作业使用,代码都在里面,系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值,项目都经过严格调试,确保可以运行! 基于python抓取微博数据并对微博文本分析和可视化项目源码-LDA(树图)含文档说明基于python抓取微博数据并对微博文本分析和可视化项目源码-LDA(树图)含文档说明基于python抓取微博数据并对微博文本分析和可视化项目源码-LDA(树图)含文档说明基于python抓取微博数据并对微博文本分析和可视化项目源码-LDA(树图)含文档说明基于python抓取微博数据并对微博文本分析和可视化项目源码-LDA(树图)含文档说明基于python抓取微博数据并对微博文本分析和可视化项目源码-LDA(树图)含文档说明基于python抓取微博数据并对微博文本分析和可视化项目源码-LDA(树图)含文档
资源推荐
资源详情
资源评论
收起资源包目录
基于python抓取微博数据并对微博文本分析和可视化,LDA(树图).zip (53个子文件)
-master
weibo-analysis-and-visualization
zh_wiki.py 140KB
Agu_comment.json 85.66MB
cluster_tfidf.py 8KB
pie.py 6KB
3Dbar.py 4KB
wc.py 1KB
langconv.py 8KB
pre_graph.py 5KB
cluster_w2v.py 7KB
senti_pre.py 4KB
map.py 7KB
map.html 41KB
graph.py 2KB
similar.py 3KB
Agu_content.json 17.46MB
tree.py 4KB
prepro.py 7KB
LDA_total.csv 76KB
Sentiment-Analysis-master
lstm_data
lstm.yml 2KB
W2Vmodel 10.06MB
Word2vec_model.pkl 9.97MB
wiki.zh.text.model 46.43MB
corpusWord2Vec.bin 10.01MB
data
pos.xls 2.12MB
neg.xls 1.76MB
code
senti_lstm.py 13KB
Sentiment_lstm.py 8KB
tree.html 210KB
3Dbar.html 3.1MB
graph.html 34.42MB
senti_analy.py 6KB
images
tree.png 34KB
3dbar.png 31KB
3dbar1.png 170KB
cluster_tfidf.png 176KB
guanshui_comment.png 261KB
cluster_w2v.png 132KB
lines.png 119KB
graph.png 124KB
map.png 82KB
guanshui_content.png 296KB
pie.html 3KB
LDA.py 2KB
key_words2.txt 988B
line.html 5.25MB
lines.py 4KB
senti_analy_refer.py 6KB
dict
哈工大停用词表.txt 5KB
否定词.txt 482B
degreeDict.txt 2KB
BosonNLP_sentiment_score.txt 2.41MB
.gitattributes 32B
README.md 6KB
共 53 条
- 1
资源评论
王二空间
- 粉丝: 7215
- 资源: 2087
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功