NTUSD情感词典+知网HowNet+大连理工DUTIR+清华褒贬义

共39个文件

txt：20个

py：7个

csv：3个

情感词典

3星 · 超过75%的资源需积分: 42 39 浏览量 2019-12-04 10:51:09 上传评论 8 收藏 10.67MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

情感词典加评论数据集汇总.zip （39个子文件）

情感词典加评论数据集汇总

京东评论数据集

Text-Classification-master

TextClassification

data

data_single.csv 927KB

data_multiple.json 20.51MB

去除标记.csv 902KB

去除标记.txt 902KB

DataPreprocess.py 3KB

load_data.py 456B

TextClassification.py 2KB

__init__.py 148B

net.py 2KB

demo_multiple.py 1KB

picture

data_multiple.png 301KB

data_single.png 60KB

.gitignore 1KB

README.md 4KB

.gitattributes 66B

demo_single.py 1KB

大连理工大学情感词汇本体

下载协议.txt 706B

情感词汇本体

情感词汇本体.xlsx 1.22MB

情感词汇本体库说明文档.doc 54KB

情感词汇本体.CSV 820KB

知网Hownet

正面情感词语（英文）.txt 14KB

主张词语（中文）.txt 289B

正面情感词语（中文）.txt 6KB

主张词语（英文）.txt 451B

程度级别词语（中文）.txt 1KB

正面评价词语（英文）.txt 60KB

负面评价词语（英文）.txt 56KB

负面评价词语（中文）.txt 25KB

负面情感词语（中文）.txt 10KB

负面情感词语（英文）.txt 18KB

程度级别词语（英文）.txt 2KB

正面评价词语（中文）.txt 30KB

清华大学——李军中文褒贬义词典

tsinghua.negative.gb.txt 29KB

tsinghua.positive.gb.txt 35KB

其他词典和分类.zip 1.41MB

台湾大学NTUSD

NTUSD_positive_simplified.txt 26KB

ntusd-negative.txt 87KB

ntusd-positive.txt 29KB

NTUSD_negative_simplified.txt 80KB

# Text-Classification [![](https://img.shields.io/badge/Python-3.6-blue.svg)](https://www.python.org/) [![](https://img.shields.io/badge/pandas-0.21.0-brightgreen.svg)](https://pypi.python.org/pypi/pandas/0.21.0) [![](https://img.shields.io/badge/numpy-1.13.1-brightgreen.svg)](https://pypi.python.org/pypi/numpy/1.13.1) [![](https://img.shields.io/badge/jieba-0.39-brightgreen.svg)](https://pypi.python.org/pypi/jieba/0.39) [![](https://img.shields.io/badge/Keras-2.2.4-brightgreen.svg)](https://pypi.python.org/pypi/Keras/2.2.4) ## 项目介绍通过对已有标签的文本进行训练，实现新文本的分类。 ## 更新说明 2019.3.25：项目最初是公司的一个舆情分析业务，后来参加了一些比赛又增加了一些小功能。当时只是想着把机器学习、深度学习的一些简单的模型整合在一起，锻炼一下工程能力。和一些网友交流后，觉得没必要搞一个通用型的模块（反正也没人用哈哈~）。最近刚好比较清闲，就本着越简单越好的目的把没啥用的花里胡哨的参数和函数都删了，只保留了预处理和卷积网络。 ## 导入数据集:load_data **准备了单一标签的电商数据4000多条和多标签的司法罪名数据15000多条，数据仅供学术研究使用，禁止商业传播。** * 单一标签的电商数据4000条为.csv格式，来源于真实电商评论，由'evaluation'和'label'两个字段组成，分别表示用户评论和正负面标签，建议pandas读取，读入后为dataframe。 * 多标签的司法罪名数据15000条为.json格式，来源于2018‘法研杯’法律智能挑战赛（CAIL2018），由'fact'和'accusation'两个字段组成，分别表示事实陈述和罪名，读入后为列表。 ``` python from TextClassification.load_data import load_data # 单标签 data = load_data('single') x = data['evaluation'] y = [[i] for i in data['label']] # 多标签 data = load_data('multiple') x = [i['fact'] for i in data] y = [i['accusation'] for i in data] ``` ![](https://github.com/renjunxiang/Text-Classification/blob/master/picture/data_single.png) ![](https://github.com/renjunxiang/Text-Classification/blob/master/picture/data_multiple.png) ## 文本预处理：DataPreprocess.py **用于对原始文本数据做预处理，包含分词、转编码、长度统一等方法，已封装进TextClassification.py** ``` python preprocess = DataPreprocess() # 处理文本 texts_cut = preprocess.cut_texts(texts, word_len) preprocess.train_tokenizer(texts_cut, num_words) texts_seq = preprocess.text2seq(texts_cut, sentence_len) # 得到标签 preprocess.creat_label_set(labels) labels = preprocess.creat_labels(labels) ``` ## 模型训练及预测：TextClassification.py **整合预处理、网络的训练、网络的预测，demo请参考两个demo脚本** **方法如下：** * fit：输入原始文本和标签，可以在已有的模型基础上继续训练，不输入模型则重新开始训练； * predict：输入原始文本； ``` python from TextClassification import TextClassification clf = TextClassification() texts_seq, texts_labels = clf.get_preprocess(x_train, y_train, word_len=1, num_words=2000, sentence_len=50) clf.fit(texts_seq=texts_seq, texts_labels=texts_labels, output_type=data_type, epochs=10, batch_size=64, model=None) # 保存整个模块,包括预处理和神经网络 with open('./%s.pkl' % data_type, 'wb') as f: pickle.dump(clf, f) # 导入刚才保存的模型 with open('./%s.pkl' % data_type, 'rb') as f: clf = pickle.load(f) y_predict = clf.predict(x_test) y_predict = [[clf.preprocess.label_set[i.argmax()]] for i in y_predict] score = sum(y_predict == np.array(y_test)) / len(y_test) print(score) # 0.9288 ```

评论收藏

内容反馈