# 项目介绍 #
基于 [weibo\_senti_100k.csv](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb) 数据集,本项目分别使用朴素贝叶斯、逻辑回归、LSTM、CNN、BERT等模型进行了实验,其中涉及的词向量表示方式包括one-hot、Bag of Words、TF-IDF、Word2Vec、Glove等。对于Word2Vec和Glove词向量的构建过程,本项目也提供了相关代码。项目中模型的训练运行脚本为train.sh,如bert\_train.sh,模型的测试运行脚本为test.sh,如bert\_test.sh。此外,本项目也会给出如何将训练好的BERT模型以服务的形式进行部署,以满足商业应用中的实时性需求。针对具体模型的使用,请读者查看\*\_README.md文件。希望通过本项目的学习,读者能够对情感分析中常用的模型技术有进一步的理解。
# 环境准备 #
bert-base==0.0.7<br>
fire==0.3.1<br>
gensim==3.8.1<br>
h5py==2.10.0<br>
jieba==0.42.1<br>
numpy==1.18.1<br>
pandas==1.0.1<br>
tensorflow-gpu==1.15.3<br>
scikit-learn==0.23.1<br>
# 数据准备 #
本项目中所使用的数据集存放在data文件夹下,名为weibo\_senti\_100k.csv,运行代码train\_valid\_test_split.py生成train.csv、dev.csv、test.csv文件。拆分数据集的比例可以根据需要做相应修改,目前train\_valid\_test\_split.py对于训练集、验证集、测试集的拆分比例为8:1:1。
# 训练词向量 #
本项目中只有CNN模型程序代码涉及了预训练词向量的加载,因此其他模型的程序代码在环境准备完毕的情况下可以不考虑预训练词向量直接运行相关脚本文件即可。然而,CNN模型需要提前准备好预训练词向量,这里使用Word2Vec与Glove工具进行训练,具体训练词向量的步骤请查看word2vec和glove文件夹。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
本项目基于 weibo_senti_100k.csv 数据集,分别使用朴素贝叶斯、逻辑回归、LSTM、CNN、BERT等模型进行了实验,其中涉及的词向量表示方式包括one-hot、Bag of Words、TF-IDF、Word2Vec、Glove等。对于Word2Vec和Glove词向量的构建过程,本项目也提供了相关代码。项目中模型的训练运行脚本为train.sh,如bert_train.sh,模型的测试运行脚本为test.sh,如bert_test.sh。此外,本项目也会给出如何将训练好的BERT模型以服务的形式进行部署,以满足商业应用中的实时性需求。针对具体模型的使用,请读者查看*_README.md文件。希望通过本项目的学习,读者能够对情感分析中常用的模型技术有进一步的理解。
资源推荐
资源详情
资源评论
收起资源包目录
weibo_sentiment_analysis-master-master.zip (43个子文件)
weibo_sentiment_analysis-master-master
train_valid_test_split.py 1KB
gnb_model_test.py 3KB
gnb_train.py 3KB
cnn_train.py 7KB
lrcv_train.sh 21B
bert-base-serving-start.sh 269B
bert_freeze_graph.py 7KB
word2vec
word2vec_test.py 945B
hownet_zh.txt 93KB
generate_weibo_corpus.py 1KB
hit_stopwords.txt 5KB
word2vec_train.py 1KB
lr_model_test.py 2KB
gnb_train.sh 20B
data
weibo_senti_100k.csv 18.79MB
lrcv_model_test.py 2KB
lr_train.py 3KB
glove
glove_test.py 928B
bert_freeze_graph.sh 213B
bert_test.sh 26B
lrcv_test.sh 26B
lr_train.sh 19B
gnb_test.sh 25B
cnn_test.sh 25B
lstm_test.sh 26B
modeling.py 37KB
optimization.py 7KB
lstm_model_test.py 2KB
lrcv_train.py 3KB
lr_test.sh 24B
lstm_train.py 7KB
tokenization.py 10KB
requirements.txt 142B
cnn_model_test.py 3KB
lstm_train.sh 44B
.inscode 482B
cnn_train.sh 43B
bert_train.sh 530B
README.md 2KB
run_classifier.py 33KB
vocab.txt 107KB
bert_model_test.py 794B
BERT_README.md 877B
共 43 条
- 1
资源评论
草帽夫卡
- 粉丝: 14
- 资源: 14
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功