# Sentiment-Analysis
基于英文文本通过机器学习算法(LR、Random Forest、GBDT)和深度学习算法(BiLSTM)预测情感标签
### 项目介绍
(1) 数据集isear.txt来自于国外社会学和心理学的问卷调查结果,主要由英文文本短句和七类情感标签组成。
(2) 对数据进行初步的预处理,包括去除停用词和特殊符号。将英文文本转化为结构化数据,分别用到tf-idf编码和GloVe词向量两种方式。
(3) 将英文文本短句转化为tf-idf矩阵后,用逻辑回归(最大熵模型)、随机森林和提升树等算法进行多分类预测。
(4) 通过GloVe词向量将英文文本短句转化为分布式表示后,用双向LSTM网络进行多分类预测(嵌入层+BiLSTM层+Dropout层+全连接层)。
(5) 通过precision、recall、F1-Score等性能指标评价训练的机器学习和深度学习模型在测试集上的效果。