人工智能微博领域情感分析模型案例代码及数据_百度云自然语言处理资源-CSDN文库

共43个文件

py：21个

sh：14个

txt：4个

自然语言处理

人工智能

微博情感分析

68 浏览量 2023-08-26 15:54:10 上传评论 3 收藏 9.86MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

weibo_sentiment_analysis-master-master.zip （43个子文件）

weibo_sentiment_analysis-master-master

train_valid_test_split.py 1KB

gnb_model_test.py 3KB

gnb_train.py 3KB

cnn_train.py 7KB

lrcv_train.sh 21B

bert-base-serving-start.sh 269B

bert_freeze_graph.py 7KB

word2vec

word2vec_test.py 945B

hownet_zh.txt 93KB

generate_weibo_corpus.py 1KB

hit_stopwords.txt 5KB

word2vec_train.py 1KB

lr_model_test.py 2KB

gnb_train.sh 20B

data

weibo_senti_100k.csv 18.79MB

lrcv_model_test.py 2KB

lr_train.py 3KB

glove

glove_test.py 928B

bert_freeze_graph.sh 213B

bert_test.sh 26B

lrcv_test.sh 26B

lr_train.sh 19B

gnb_test.sh 25B

cnn_test.sh 25B

lstm_test.sh 26B

modeling.py 37KB

optimization.py 7KB

lstm_model_test.py 2KB

lrcv_train.py 3KB

lr_test.sh 24B

lstm_train.py 7KB

tokenization.py 10KB

requirements.txt 142B

cnn_model_test.py 3KB

lstm_train.sh 44B

.inscode 482B

cnn_train.sh 43B

bert_train.sh 530B

README.md 2KB

run_classifier.py 33KB

vocab.txt 107KB

bert_model_test.py 794B

BERT_README.md 877B

# 项目介绍 # 基于 [weibo\_senti_100k.csv](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb) 数据集，本项目分别使用朴素贝叶斯、逻辑回归、LSTM、CNN、BERT等模型进行了实验，其中涉及的词向量表示方式包括one-hot、Bag of Words、TF-IDF、Word2Vec、Glove等。对于Word2Vec和Glove词向量的构建过程，本项目也提供了相关代码。项目中模型的训练运行脚本为train.sh，如bert\_train.sh，模型的测试运行脚本为test.sh，如bert\_test.sh。此外，本项目也会给出如何将训练好的BERT模型以服务的形式进行部署，以满足商业应用中的实时性需求。针对具体模型的使用，请读者查看\*\_README.md文件。希望通过本项目的学习，读者能够对情感分析中常用的模型技术有进一步的理解。 # 环境准备 # bert-base==0.0.7 fire==0.3.1 gensim==3.8.1 h5py==2.10.0 jieba==0.42.1 numpy==1.18.1 pandas==1.0.1 tensorflow-gpu==1.15.3 scikit-learn==0.23.1 # 数据准备 # 本项目中所使用的数据集存放在data文件夹下，名为weibo\_senti\_100k.csv，运行代码train\_valid\_test_split.py生成train.csv、dev.csv、test.csv文件。拆分数据集的比例可以根据需要做相应修改，目前train\_valid\_test\_split.py对于训练集、验证集、测试集的拆分比例为8:1:1。 # 训练词向量 # 本项目中只有CNN模型程序代码涉及了预训练词向量的加载，因此其他模型的程序代码在环境准备完毕的情况下可以不考虑预训练词向量直接运行相关脚本文件即可。然而，CNN模型需要提前准备好预训练词向量，这里使用Word2Vec与Glove工具进行训练，具体训练词向量的步骤请查看word2vec和glove文件夹。

评论收藏

内容反馈