# weibo-topic-spyder
微博超级话题爬虫,微博词频统计+情感分析+简单分类
新增微博普通话题爬取,其中讨论和阅读数量的爬取待完善
爬取数据展示
![](img/fy.png)
![](img/weibo.png)
### 使用方法
爬虫主文件:
微博普通话题:normal-topic-spyder.py
微博超级话题:super-topic-spyder.py
在爬虫主文件中的主函数中输入账号、密码和想要爬取的超话名称即可开始爬取,需要提前安装所需的python库和chromedriver驱动
爬取结束后数据会自动保存在当前目录下的excel文件中,每行为一个微博数据。
提示:普通的话题爬取需要添加#,例如#话题#,超级话题无需添加;一般而言,在微博中超级话题前带有钻石标志,普通话题为#话题#的格式
### 超级话题爬虫
使用了selenium模拟浏览器登陆进行爬取,具体话题爬取数量受微博限制,目前单个话题最大获取微博数量为8000条左右,选择了使用手机网页模式爬取,以获得最佳的爬取效果。
账号与IP数量对单个超话的爬取帮助不大,就只设置了单账号和ip模式,若需多超话同时爬取可以自行添加。
如需爬取多个超话,可以选择使用cookie登陆,最为方便
### 词频统计
使用了jieba库进行分词,最后对分词结果进行简单统计并且存储到txt中
### 情感分析
调用了百度大脑的api接口,可以自行注册获取key,平台不限调用次数,详细接口见[百度大脑](https://ai.baidu.com/tech/nlp_apply/sentiment_classify)
### 其他
欢迎大家参与和完善:如有其他问题,欢迎提交issue
没有合适的资源?快使用搜索试试~ 我知道了~
微博文本的情感分析研究
共155个文件
txt:26个
py:22个
pyc:14个
需积分: 46 14 下载量 89 浏览量
2022-07-06
18:22:18
上传
评论 3
收藏 389.09MB ZIP 举报
温馨提示
第一,基于Word2Vec的文本获取及预处理。收集和处理微博语料,分为大规模的旧语料和爬取的小规模疫情语料。对文本进行预处理,比如分词,去停用词等,用Word2Vec训练对文本数据进行向量化。 第二,用大规模语料训练Attention-LSTM情感分类模型与将卷积神经网络应用到文本分析的TextCNN模型的实验进行对比,证明Attention-LSTM在文本情感分析的效果更好。 第三,在微博上爬取的小规模语料上做情感分析,分析疫情下人们的情绪情况。 可以发现,Attention-LSTM模型能较好的分析疫情人们的情感态度
资源详情
资源评论
资源推荐
收起资源包目录
微博文本的情感分析研究 (155个子文件)
emo_model_textcnn_bak11.bin 16.41MB
emo_model_textcnn_bak11.bin 16.41MB
emo_model_textcnn.bin 16.41MB
emo_model_textcnn.bin 16.41MB
emo_model_lstm_attention_bak11.bin 16.12MB
emo_model_lstm_attention_bak11.bin 16.12MB
emo_model_lstm_attention.bin 16.12MB
emo_model_lstm_attention.bin 16.12MB
config 312B
weibo_senti_100k.csv 18.79MB
weibo_senti_100k.csv 18.79MB
description 73B
exclude 240B
.gitignore 50B
.gitignore 50B
.gitignore 50B
train-images-idx3-ubyte.gz 9.45MB
t10k-images-idx3-ubyte.gz 1.57MB
train-labels-idx1-ubyte.gz 28KB
t10k-labels-idx1-ubyte.gz 4KB
HEAD 191B
HEAD 191B
HEAD 32B
HEAD 23B
pack-bdbb2ced3b7c25cce2807fa1f58539a434c66ee9.idx 4KB
emo_class.iml 452B
emo_class.iml 452B
code.iml 291B
index 3KB
analyzer.ipynb 956KB
analyzer.ipynb 956KB
LICENSE 1KB
master 191B
master 41B
README.md 2KB
readme.md 1KB
readme.md 1KB
word2vec_bak.model 50.39MB
word2vec_bak.model 50.39MB
word2vec.model 33.06MB
word2vec.model 33.06MB
pack-bdbb2ced3b7c25cce2807fa1f58539a434c66ee9.pack 3.06MB
packed-refs 189B
weibo.png 259KB
fy.png 222KB
seg.png 26KB
training.pt 45.32MB
test.pt 7.55MB
train.py 11KB
train.py 11KB
super-topic-spyder.py 11KB
inference.py 9KB
inference.py 9KB
normal-topic-spyder.py 8KB
liuerda.py 5KB
liuerda.py 5KB
analyzer.py 3KB
analyzer.py 3KB
excelSave.py 3KB
data_preprocess.py 2KB
data_preprocess.py 2KB
get_word2vec.py 2KB
get_word2vec.py 2KB
analysis.py 1KB
seg.py 1KB
plot.py 499B
test11.py 495B
test11.py 489B
zzz.py 199B
zzz.py 199B
train.cpython-36.pyc 9KB
train.cpython-36.pyc 9KB
inference.cpython-38.pyc 8KB
inference.cpython-38.pyc 8KB
get_word2vec.cpython-38.pyc 2KB
get_word2vec.cpython-38.pyc 2KB
get_word2vec.cpython-36.pyc 2KB
get_word2vec.cpython-36.pyc 2KB
excelSave.cpython-38.pyc 2KB
excelSave.cpython-36.pyc 2KB
data_preprocess.cpython-38.pyc 2KB
data_preprocess.cpython-38.pyc 2KB
data_preprocess.cpython-36.pyc 2KB
data_preprocess.cpython-36.pyc 2KB
pre-rebase.sample 5KB
fsmonitor-watchman.sample 5KB
update.sample 4KB
push-to-checkout.sample 3KB
pre-commit.sample 2KB
prepare-commit-msg.sample 1KB
pre-push.sample 1KB
commit-msg.sample 896B
pre-receive.sample 544B
applypatch-msg.sample 478B
pre-applypatch.sample 424B
pre-merge-commit.sample 416B
post-update.sample 189B
t10k-images-idx3-ubyte 7.48MB
t10k-labels-idx1-ubyte 10KB
train-images-idx3-ubyte 44.86MB
共 155 条
- 1
- 2
小蜗子
- 粉丝: 773
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0