# WeiboSentiment
用各种机器学习对中文微博进行情感分析
语料来源: https://github.com/dengxiuqi/weibo2018
---
##### "微博情感分析"是我本科的毕业设计, 也是我入门NLP的项目, 就把它发出来供大家交流。
##### 2021.06.07更新: 之前的版本写得比较随意, 没想到star破百了, 私下也有一些刚入门NLP的同学因为这个项目联系我, 就更新一下这个项目吧
* 重构项目架构和代码, 提高可读性
* 每个文件中的特征、数据处理方法与模型细节都尽可能避免重复, 以给各位同学提供更多的参考
* 神经网络结构换成了pytorch, 需要`tensorflow 1.0`代码的同学请回退至`445998`版本。
* 新增了`Bert`模型
* 由于gensim新老版本很多语法不兼容, 将gensim更新为4.0版本
----
#### 项目说明
* 训练集10000条语料, 测试集500条语料
* 使用朴素贝叶斯、SVM、XGBoost、LSTM和Bert, 等多种模型搭建并训练二分类模型
* 前3个模型都采用端到端的训练方法
* LSTM先预训练得到Word2Vec词向量, 在训练神经网络
* `Bert`使用的是哈工大的预训练模型, 用Bert的`[CLS]`位输出在一个下游网络上进行finetune。预训练模型需要自行下载:
* github下载地址: https://github.com/ymcui/Chinese-BERT-wwm
* baidu网盘: https://pan.baidu.com/s/16z-ybrqT6wLdy_mLHtywSw 密码: djkj
* 下载后将文件夹放在`./model`文件夹下, 并将`bert_config.json`改名为`config.json`
---
#### 实验结果
各种分类器在测试集上的测试结果
|模型|准确率|AUC|
| :---: | :---: | :---: |
|1.bayes|0.856| - |
|2.svm|0.856| - |
|3.xgboost|0.86| 0.904 |
|4.lstm|0.87| 0.931 |
|5.bert|0.87| 0.929 |
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
1、该资源内项目代码经过严格调试,下载即用确保可以运行! 2、该资源适合计算机相关专业(如计科、人工智能、大数据、数学、电子信息等)正在做课程设计、期末大作业和毕设项目的学生、或者相关技术学习者作为学习资料参考使用。 3、该资源包括全部源码,需要具备一定基础才能看懂并调试代码。 基于各种机器学习和深度学习算法的中文微博情感分析源码.zip基于各种机器学习和深度学习算法的中文微博情感分析源码.zip基于各种机器学习和深度学习算法的中文微博情感分析源码.zip基于各种机器学习和深度学习算法的中文微博情感分析源码.zip基于各种机器学习和深度学习算法的中文微博情感分析源码.zip基于各种机器学习和深度学习算法的中文微博情感分析源码.zip基于各种机器学习和深度学习算法的中文微博情感分析源码.zip基于各种机器学习和深度学习算法的中文微博情感分析源码.zip基于各种机器学习和深度学习算法的中文微博情感分析源码.zip基于各种机器学习和深度学习算法的中文微博情感分析源码.zip基于各种机器学习和深度学习算法的中文微博情感分析源码.zip基于各种机器学习和深度学习算法的中文微博情感分析源码...
资源推荐
资源详情
资源评论
收起资源包目录
基于各种机器学习和深度学习算法的中文微博情感分析源码.zip (20个子文件)
project_code_0628
utils.py 2KB
5.bert.ipynb 25KB
3.xgboost.ipynb 9KB
data
weibo2018
topics
周杰伦.txt 15KB
人工智能.txt 29KB
毕业.txt 23KB
好莱坞.txt 24KB
同济大学.txt 19KB
特朗普.txt 27KB
test.txt 114KB
train.txt 2.25MB
stopwords.txt 10KB
4.lstm.ipynb 23KB
2.svm.ipynb 7KB
model
lstm_5.model 656KB
bert_dnn_8.model 5KB
1.bayes.ipynb 8KB
requirements.txt 93B
.gitignore 1KB
README.md 2KB
共 20 条
- 1
资源评论
辣椒种子
- 粉丝: 3321
- 资源: 5724
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 历届(第1-21届)希望杯数学竞赛初一试题及答案(最新整理).doc全国数学邀请赛(264页资料)
- 水滴.psd
- TokenPocket_V2.1.2_release.apk
- Apache-druid-kafka-rce.yaml
- 半导体行业词汇 相关缩写
- 基于C#的ASP.NET数据库原理及应用技术课程指导平台的开发
- 基于ROS的智能车轨迹跟踪算法的仿真与设计源码运用PID跟踪算法.zip.zip
- Bug Bounty Tip - i春秋Self-XSS变废为宝的奇思妙想
- 1991-2015年全国初中化学竞赛复赛试题汇编(212页)(24年竞赛复赛真题).docx天原杯
- Apache Flink 未授权访问+远程代码执行.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功