SentimentClassification.rar_2OO7_equipmentz67

共1个文件

py：1个

版权申诉

情感分类

17 浏览量 2022-07-15 21:21:49 上传评论收藏 1KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

SentimentClassification.rar （1个子文件）

SentimentClassification.py 2KB

# -*- coding:utf-8 -*- import pandas as pd import numpy as np import re from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import TfidfVectorizer as TFIV from sklearn.feature_extraction.text import TfidfTransformer from sklearn import svm from sklearn.linear_model import LogisticRegression from sklearn.naive_bayes import MultinomialNB # 读取训练集csv文件 df_train = pd.read_csv('train.csv', index_col = 0,lineterminator='\n') df_test = pd.read_csv('20190520_test.csv', index_col = 0,lineterminator='\n') rev_train = [re.sub(r'[^\w\s?.!/-_,.:$%^*()\[\]\"\']+|[^\w\s+——！，。？、~@#￥%……&*（）]+','',sentence) for sentence in df_train['review']] rev_test = [re.sub(r'[^\w\s?.!/-_,.:$%^*()\[\]\"\']+|[^\w\s+——！，。？、~@#￥%……&*（）]+','',sentence) for sentence in df_test['review']] rev_all = rev_train + rev_test labels = [0 if x == "Negative" else 1 for x in df_train['label']] tfv = TFIV(min_df=3, max_features=None, analyzer='word', ngram_range=(1, 2), use_idf=1,smooth_idf=1,sublinear_tf=1) tfv.fit(rev_all) tfidf = tfv.transform(rev_all) train_len = len(rev_train) print(train_len) x_train = tfidf[:train_len] x_test = tfidf[train_len:] tfidf_train_array = x_train.toarray() labels_array = np.array(labels) X_train,X_test,y_train,y_test = train_test_split(tfidf_train_array,labels_array,test_size=0.20) #朴素贝叶斯 mnb = MultinomialNB() mnb.fit(X_train,y_train) print ('The accuracy of NB Classifier is',mnb.score(X_test,y_test)) #逻辑回归 classifier_lg = LogisticRegression() classifier_lg.fit(X_train,y_train) print ('The accuracy of lg Classifier is',classifier_lg.score(X_test,y_test)) #预测输出 tfidf_test_array = x_test.toarray() test_len = len(rev_test) id_lt = [i for i in range(1,test_len+1)] #朴素贝叶斯 predict_list = mnb.predict_proba(tfidf_test_array) predict_list = [predict[1] for predict in predict_list] dataframe = pd.DataFrame({'ID':id_lt,'Pred':predict_list}) dataframe.to_csv("Pred_nb.csv",index=False) # #逻辑回归 predict_list = classifier_lg.predict_proba(tfidf_test_array) predict_list = [predict[1] for predict in predict_list] dataframe = pd.DataFrame({'ID':id_lt,'Pred':predict_list}) dataframe.to_csv("Pred_lg.csv",index=False)

评论收藏

内容反馈

版权申诉