用各种机器学习对中文微博进行情感分析
语料来源: https://github.com/dengxiuqi/weibo2018
"微博情感分析"是我本科的毕业设计, 也是我入门 NLP 的项目, 就把它发出来供大家交流。
� 重构项目架构和代码, 提高可读性
� 每个文件中的特征、数据处理方法与模型细节都尽可能避免重复, 以给各位同学提
供更多的参考
� 神经网络结构换成了 pytorch, 需要 tensorflow 1.0 代码的同学请回退至 445998 版
本。
� 新增了 Bert 模型
� 由于 gensim 新老版本很多语法不兼容, 将 gensim 更新为 4.0 版本
项目说明
� 训练集 10000 条语料, 测试集 500 条语料
� 使用朴素贝叶斯、SVM、XGBoost、LSTM 和 Bert, 等多种模型搭建并训练二分类
模型
� 前 3 个模型都采用端到端的训练方法
� LSTM 先预训练得到 Word2Vec 词向量, 在训练神经网络
� Bert 使用的是哈工大的预训练模型, 用 Bert 的[CLS]位输出在一个下游网络上进行
finetune。预训练模型需要自行下载:
o github 下载地址: https://github.com/ymcui/Chinese-BERT-wwm
o baidu 网盘: https://pan.baidu.com/s/16z-ybrqT6wLdy_mLHtywSw 密码:
djkj
o 下载后将文件夹放在./model 文件夹下, 并将 bert_config.json 改名为
config.json
实验结果
各种分类器在测试集上的测试结果
模型
准确率
AUC
1.bayes
0.856
-