文本情感分析_基于LSTM的情感分析算法实现资源-CSDN文库

共22个文件

py：14个

png：2个

gitattributes：1个

5星 · 超过95%的资源需积分: 50 90 浏览量 2018-07-19 22:46:46 上传评论 17 收藏 7.03MB ZIP 举报

文本情感分析是自然语言处理（NLP）领域的一个重要任务，主要目的是确定一段文本的情感极性，例如正面、负面或中立。在这个场景中，我们关注的是针对淘宝商品评价和新闻评论的情感倾向分析，这是商业智能和舆情分析的关键组成部分。通过理解和分析用户反馈的情感，企业可以改进产品、优化服务，并制定更有效的市场策略。为了实现这个任务，我们使用了Python，一种广泛应用于数据科学和机器学习领域的编程语言。Python拥有丰富的库和框架，如TensorFlow、Keras和PyTorch，使得NLP任务的开发变得更为便捷。模型部分提到了RNN（循环神经网络）和CNN（卷积神经网络）。这两种模型在NLP中都有广泛的应用： 1. **RNN（循环神经网络）**：RNNs特别适合处理序列数据，如文本。它们能够记住之前的输入信息，形成上下文依赖。在情感分析中，RNN的这一特性有助于捕捉文本中的长期依赖，例如“虽然...但是...”这样的句子结构。LSTM（长短时记忆网络）和GRU（门控循环单元）是RNN的变种，能更有效地解决梯度消失问题，常用于处理更长的文本序列。 2. **CNN（卷积神经网络）**：在图像处理中表现出色的CNNs也被引入到NLP领域，尤其是处理固定长度的输入，如词嵌入。CNN通过滤波器（kernel）对文本进行局部特征提取，形成词级别的表示。这些表示可以捕捉到词汇的共现模式，有助于识别关键情感词汇。在`Text-Classification-master`这个项目中，可能包含了以下内容： - 数据预处理：包括分词、去除停用词、词干提取等，以将原始文本转化为机器可读的形式。 - 特征表示：使用预训练的词嵌入（如Word2Vec或GloVe）或训练自己的嵌入来表示每个词。 - 模型构建：结合RNN和CNN构建混合模型，利用两者的优势进行情感分类。 - 训练与优化：定义损失函数（如交叉熵损失）和优化器（如Adam），并设置合适的超参数（如学习率、批次大小等）进行模型训练。 - 评估与验证：使用交叉验证或保留一部分数据作为测试集，通过准确率、精确率、召回率和F1分数等指标评估模型性能。 - 应用部署：训练好的模型可以部署为API，实时处理新的商品评价或新闻评论，进行情感分析。通过这个项目，你可以深入理解如何使用Python和深度学习技术进行文本情感分析，同时熟悉NLP的整个流程，包括数据处理、模型构建和评估。这将对提升你在NLP领域的技能有很大帮助。

资源推荐

资源详情

资源评论

收起资源包目录

Text-Classification-master.zip （22个子文件）

Text-Classification-master

TextClassification

models

RNN.py 2KB

SklearnClf.py 669B

__init__.py 76B

CNN.py 2KB

data

data_single.csv 927KB

data_multiple.json 20.51MB

DataPreprocess.py 6KB

load_data.py 413B

TextClassification.py 7KB

__init__.py 127B

picture

data_multiple.png 301KB

data_single.png 60KB

demo.py 2KB

.gitignore 1KB

demo

demo_net_multiple_use_process.py 2KB

demo_sklearn.py 1KB

.idea

workspace.xml 15KB

demo_net_single_use_process.py 2KB

demo_net_multiple.py 874B

demo_net_single.py 862B

README.md 5KB

.gitattributes 66B

# Text-Classification [![](https://img.shields.io/badge/Python-3.5-blue.svg)](https://www.python.org/) [![](https://img.shields.io/badge/pandas-0.21.0-brightgreen.svg)](https://pypi.python.org/pypi/pandas/0.21.0) [![](https://img.shields.io/badge/numpy-1.13.1-brightgreen.svg)](https://pypi.python.org/pypi/numpy/1.13.1) [![](https://img.shields.io/badge/jieba-0.39-brightgreen.svg)](https://pypi.python.org/pypi/jieba/0.39) [![](https://img.shields.io/badge/gensim-3.2.0-brightgreen.svg)](https://pypi.python.org/pypi/gensim/3.2.0) [![](https://img.shields.io/badge/Keras-2.1.5-brightgreen.svg)](https://pypi.python.org/pypi/Keras/2.1.5) [![](https://img.shields.io/badge/scikit--learn-0.19.1-brightgreen.svg)](https://pypi.python.org/pypi/scikit-learn/0.19.1) ## 语言 Python3.5 ## 依赖库 pandas=0.21.0 numpy=1.13.1 jieba=0.39 gensim=3.2.0 scikit-learn=0.19.1 keras=2.1.5 ## 项目介绍通过对已有标签的文本进行训练，实现新文本的分类。 目前完成了数据预处理、CNN、RNN、训练和预测的封装，后续会加入scikit-learn常用模型 ## 用法介绍 ### 导入数据集:load_data **准备了单一标签的电商数据4000多条和多标签的司法罪名数据15000多条，数据仅供学术研究使用，禁止商业传播。** * 单一标签的电商数据4000条为.csv格式，来源于真实电商评论，由'evaluation'和'label'两个字段组成，分别表示用户评论和正负面标签，建议pandas读取，读入后为dataframe。 * 多标签的司法罪名数据15000条为.json格式，来源于2018‘法研杯’法律智能挑战赛（CAIL2018），由'fact'和'accusation'两个字段组成，分别表示事实陈述和罪名，读入后为列表。 ``` python from TextClassification.load_data import load_data #single target data=load_data(name='single') x=data['evaluation'] y=[[i] for i in data['label']] #multiple target data=load_data(name='multiple') x=[i['fact'] for i in data] y=[i['accusation'] for i in data] ``` ![](https://github.com/renjunxiang/Text-Classification/blob/master/picture/data_single.png) ![](https://github.com/renjunxiang/Text-Classification/blob/master/picture/data_multiple.png) ### 文本预处理：DataPreprocess.py **用于对原始文本数据做预处理，包含分词、转编码、长度统一等方法。** **方法如下：** * cut_texts：分词，输入文本、保留词语长度，输出词语列表 * text2seq：词语列表转定长编码，输入词语列表，输出定长编码列表 * text2vec：词语列表转词向量列表，输入词语列表，输出词向量列表 * creat_label_set：创建标签集合，输入原始标签，输出不重复的标签列表 * creat_labels：创建标签one-hot，输入原始标签、标签集合，输出one-hot的标签列表 ``` python from TextClassification.DataPreprocess import DataPreprocess process = DataPreprocess() # cut texts x_cut = process.cut_texts(texts=x, need_cut=True, word_len=2, savepath=None) # texts to sequence x_seq = process.text2seq(texts_cut=x_cut, tokenizer=None, tokenizer_savapah=None, num_words=500, maxlen=20, batchsize=10000) # list to array x_seq = np.array(x_seq) # texts to word vector x_word_vec = process.text2vec(texts_cut=x, sg=1, size=128, window=5, min_count=1) # texts vector x_vec = process.text2vec(texts_cut=x, sg=1, size=128, window=5, min_count=1, merge=True) ``` ### 模型训练及预测：TextClassification.py **整合预处理、Keras神经网络、skleran机器学习的训练、预测，结果转标签，完整demo请参考demo文件夹** sklearn里面封装了SVC和LogisticRegression，中小型数据集表现要优于神经网络，要求标签为一维数组。 神经网络封装了简单的CNN和RNN，要求标签为二维数组，从而可以转变为独热编码，标签可以多个。 **方法如下：** * fit：整合预处理、模型训练，输入原始文本、转为编码的定长序列或者句向量。 * predict：整合预处理、模型预测，输入原始文本、转为编码的定长序列或者句向量，model为None则调用训练的模型。 ``` python from TextClassification import TextClassification # neural network model=TextClassification() # train model model.fit(x=X_train, y=y_train, method='CNN',model=None, x_need_preprocess=True, y_need_preprocess=True, epochs=10, batchsize=128, output_type='single') # get label set label_set=model.label_set # predict data y_predict=model.predict(x=X_test, x_need_preprocess=True) # prediction to tag y_predict_label=model.label2toptag(predictions=y_predict,labelset=label_set) # calculate accuracy print(sum([y_predict_label[i]==y_test[i] for i in range(len(y_predict))])/len(y_predict)) # sklearn model.fit(x=X_train, y=y_train, x_need_preprocess=True, y_need_preprocess=False, method='SVM', output_type='single') y_predict = model.predict(x=X_test, x_need_preprocess=True) print(sum(y_predict == np.array(y_test)) / len(y_predict)) ```

评论收藏

内容反馈

zhenzhen_0101

2021-08-22

小白在线询问楼主，TextClassification.py报错ModuleNotFoundError: No module named '__main__.DataPreprocess'; '__main__' is not a package demo.py报错NameError: name 'tokenizer' is not defined 望解答！谢谢
weixin_37839308

2019-08-08

参考一下。