# Text-Classification
[![](https://img.shields.io/badge/Python-3.6-blue.svg)](https://www.python.org/)
[![](https://img.shields.io/badge/pandas-0.21.0-brightgreen.svg)](https://pypi.python.org/pypi/pandas/0.21.0)
[![](https://img.shields.io/badge/numpy-1.13.1-brightgreen.svg)](https://pypi.python.org/pypi/numpy/1.13.1)
[![](https://img.shields.io/badge/jieba-0.39-brightgreen.svg)](https://pypi.python.org/pypi/jieba/0.39)
[![](https://img.shields.io/badge/Keras-2.2.4-brightgreen.svg)](https://pypi.python.org/pypi/Keras/2.2.4)
## 项目介绍
通过对已有标签的文本进行训练,实现新文本的分类。<br>
## 更新说明
2019.3.25:项目最初是公司的一个舆情分析业务,后来参加了一些比赛又增加了一些小功能。当时只是想着把机器学习、深度学习的一些简单的模型整合在一起,锻炼一下工程能力。和一些网友交流后,觉得没必要搞一个通用型的模块(反正也没人用哈哈~)。最近刚好比较清闲,就本着越简单越好的目的把没啥用的花里胡哨的参数和函数都删了,只保留了预处理和卷积网络。
## 导入数据集:load_data
**准备了单一标签的电商数据4000多条和多标签的司法罪名数据15000多条,数据仅供学术研究使用,禁止商业传播。**<br>
* 单一标签的电商数据4000条为.csv格式,来源于真实电商评论,由'evaluation'和'label'两个字段组成,分别表示用户评论和正负面标签,建议pandas读取,读入后为dataframe。<br>
* 多标签的司法罪名数据15000条为.json格式,来源于2018‘法研杯’法律智能挑战赛(CAIL2018),由'fact'和'accusation'两个字段组成,分别表示事实陈述和罪名,读入后为列表。<br>
``` python
from TextClassification.load_data import load_data
# 单标签
data = load_data('single')
x = data['evaluation']
y = [[i] for i in data['label']]
# 多标签
data = load_data('multiple')
x = [i['fact'] for i in data]
y = [i['accusation'] for i in data]
```
![](https://github.com/renjunxiang/Text-Classification/blob/master/picture/data_single.png)
![](https://github.com/renjunxiang/Text-Classification/blob/master/picture/data_multiple.png)
## 文本预处理:DataPreprocess.py
**用于对原始文本数据做预处理,包含分词、转编码、长度统一等方法,已封装进TextClassification.py**<br>
``` python
preprocess = DataPreprocess()
# 处理文本
texts_cut = preprocess.cut_texts(texts, word_len)
preprocess.train_tokenizer(texts_cut, num_words)
texts_seq = preprocess.text2seq(texts_cut, sentence_len)
# 得到标签
preprocess.creat_label_set(labels)
labels = preprocess.creat_labels(labels)
```
## 模型训练及预测:TextClassification.py
**整合预处理、网络的训练、网络的预测,demo请参考两个demo脚本**<br>
**方法如下:**<br>
* fit:输入原始文本和标签,可以在已有的模型基础上继续训练,不输入模型则重新开始训练;<br>
* predict:输入原始文本;<br>
``` python
from TextClassification import TextClassification
clf = TextClassification()
texts_seq, texts_labels = clf.get_preprocess(x_train, y_train,
word_len=1,
num_words=2000,
sentence_len=50)
clf.fit(texts_seq=texts_seq,
texts_labels=texts_labels,
output_type=data_type,
epochs=10,
batch_size=64,
model=None)
# 保存整个模块,包括预处理和神经网络
with open('./%s.pkl' % data_type, 'wb') as f:
pickle.dump(clf, f)
# 导入刚才保存的模型
with open('./%s.pkl' % data_type, 'rb') as f:
clf = pickle.load(f)
y_predict = clf.predict(x_test)
y_predict = [[clf.preprocess.label_set[i.argmax()]] for i in y_predict]
score = sum(y_predict == np.array(y_test)) / len(y_test)
print(score) # 0.9288
```
没有合适的资源?快使用搜索试试~ 我知道了~
NTUSD情感词典+知网HowNet+大连理工DUTIR+清华褒贬义
共39个文件
txt:20个
py:7个
csv:3个
3星 · 超过75%的资源 需积分: 42 58 下载量 39 浏览量
2019-12-04
10:51:09
上传
评论 8
收藏 10.67MB ZIP 举报
温馨提示
用于无监督分类的各种情感词典汇总,包括台大NTUSD,知网HowNet,清华大学褒贬义词典,大连理工大学情感词汇本体库DUTIR等等,附赠京东评论数据集
资源推荐
资源详情
资源评论
收起资源包目录
情感词典加评论数据集汇总.zip (39个子文件)
情感词典加评论数据集汇总
京东评论数据集
Text-Classification-master
TextClassification
data
data_single.csv 927KB
data_multiple.json 20.51MB
去除标记.csv 902KB
去除标记.txt 902KB
DataPreprocess.py 3KB
load_data.py 456B
TextClassification.py 2KB
__init__.py 148B
net.py 2KB
demo_multiple.py 1KB
picture
data_multiple.png 301KB
data_single.png 60KB
.gitignore 1KB
README.md 4KB
.gitattributes 66B
demo_single.py 1KB
大连理工大学情感词汇本体
下载协议.txt 706B
情感词汇本体
情感词汇本体.xlsx 1.22MB
情感词汇本体库说明文档.doc 54KB
情感词汇本体.CSV 820KB
知网Hownet
正面情感词语(英文).txt 14KB
主张词语(中文).txt 289B
正面情感词语(中文).txt 6KB
主张词语(英文).txt 451B
程度级别词语(中文).txt 1KB
正面评价词语(英文).txt 60KB
负面评价词语(英文).txt 56KB
负面评价词语(中文).txt 25KB
负面情感词语(中文).txt 10KB
负面情感词语(英文).txt 18KB
程度级别词语(英文).txt 2KB
正面评价词语(中文).txt 30KB
清华大学——李军中文褒贬义词典
tsinghua.negative.gb.txt 29KB
tsinghua.positive.gb.txt 35KB
其他词典和分类.zip 1.41MB
台湾大学NTUSD
NTUSD_positive_simplified.txt 26KB
ntusd-negative.txt 87KB
ntusd-positive.txt 29KB
NTUSD_negative_simplified.txt 80KB
共 39 条
- 1
资源评论
- 闵开慧2021-08-01使用手册不够详细,不知如何使用
那些时光12345
- 粉丝: 2
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功