# Chinese-Text-Classification-Pytorch
[![LICENSE](https://img.shields.io/badge/license-Anti%20996-blue.svg)](https://github.com/996icu/996.ICU/blob/master/LICENSE)
中文文本分类,TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention, DPCNN, Transformer, 基于pytorch,开箱即用。
## 介绍
模型介绍、数据流动过程:[我的博客](https://zhuanlan.zhihu.com/p/73176084)
数据以字为单位输入模型,预训练词向量使用 [搜狗新闻 Word+Character 300d](https://github.com/Embedding/Chinese-Word-Vectors),[点这里下载](https://pan.baidu.com/s/14k-9jsspp43ZhMxqPmsWMQ)
## 环境
python 3.7
pytorch 1.1
tqdm
sklearn
tensorboardX
## 中文数据集
我从[THUCNews](http://thuctc.thunlp.org/)中抽取了20万条新闻标题,已上传至github,文本长度在20到30之间。一共10个类别,每类2万条。
类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。
数据集划分:
数据集|数据量
--|--
训练集|18万
验证集|1万
测试集|1万
### 更换自己的数据集
- 如果用字,按照我数据集的格式来格式化你的数据。
- 如果用词,提前分好词,词之间用空格隔开,`python run.py --model TextCNN --word True`
- 使用预训练词向量:utils.py的main函数可以提取词表对应的预训练词向量。
## 效果
模型|acc|备注
--|--|--
TextCNN|91.22%|Kim 2014 经典的CNN文本分类
TextRNN|91.12%|BiLSTM
TextRNN_Att|90.90%|BiLSTM+Attention
TextRCNN|91.54%|BiLSTM+池化
FastText|92.23%|bow+bigram+trigram, 效果出奇的好
DPCNN|91.25%|深层金字塔CNN
Transformer|89.91%|效果较差
bert|94.83%|bert + fc
ERNIE|94.61%|比bert略差(说好的中文碾压bert呢)
bert和ERNIE模型代码我放到另外一个仓库了,传送门:[Bert-Chinese-Text-Classification-Pytorch](https://github.com/649453932/Bert-Chinese-Text-Classification-Pytorch),后续还会搞一些bert之后的东西,欢迎star。
## 使用说明
```
# 训练并测试:
# TextCNN
python run.py --model TextCNN
# TextRNN
python run.py --model TextRNN
# TextRNN_Att
python run.py --model TextRNN_Att
# TextRCNN
python run.py --model TextRCNN
# FastText, embedding层是随机初始化的
python run.py --model FastText --embedding random
# DPCNN
python run.py --model DPCNN
# Transformer
python run.py --model Transformer
```
### 参数
模型都在models目录下,超参定义和模型定义在同一文件中。
## 对应论文
[1] Convolutional Neural Networks for Sentence Classification
[2] Recurrent Neural Network for Text Classification with Multi-Task Learning
[3] Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
[4] Recurrent Convolutional Neural Networks for Text Classification
[5] Bag of Tricks for Efficient Text Classification
[6] Deep Pyramid Convolutional Neural Networks for Text Categorization
[7] Attention Is All You Need
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
人工智能项目实践-中文文本分类基于TextCNN,TextRNN,FastText,TextRCNN,BiLSTM-At,含有代码注释,满分大作业资源,新手也可看懂,期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。该项目可以作为课程设计期末大作业使用,该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 人工智能项目实践-中文文本分类基于TextCNN,TextRNN,FastText,TextRCNN,BiLSTM-At人工智能项目实践-中文文本分类基于TextCNN,TextRNN,FastText,TextRCNN,BiLSTM-At人工智能项目实践-中文文本分类基于TextCNN,TextRNN,FastText,TextRCNN,BiLSTM-At人工智能项目实践-中文文本分类基于TextCNN,TextRNN,FastText,TextRCNN,BiLSTM-At人工智能项目实践-中文文本分类基于TextCNN,TextRNN,FastText,TextRCNN,BiLSTM-At人工智能项目实践-中文文本分类基于TextCNN
资源推荐
资源详情
资源评论
收起资源包目录
中文文本分类实战,基于TextCNN,TextRNN,FastText,TextRCNN,BiLSTM-Attention等模型.zip (21个子文件)
-master-
utils.py 6KB
train_eval.py 5KB
run.py 2KB
手册.1.docx 181KB
models
DPCNN.py 4KB
TextRNN_Att.py 4KB
TextRNN.py 4KB
TextRCNN.py 3KB
Transformer.py 7KB
FastText.py 4KB
TextCNN.py 3KB
utils_fasttext.py 6KB
README.md 3KB
THUCNews
data
dev.txt 538KB
vocab.pkl 73KB
class.txt 82B
embedding_SougouNews.npz 6.05MB
test.txt 539KB
train.txt 9.49MB
embedding_Tencent.npz 3.96MB
saved_dict
model.ckpt 0B
共 21 条
- 1
资源评论
yava_free
- 粉丝: 3637
- 资源: 1458
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功