# Bert-Chinese-ShortText-Classification
## 一、简介
基于Bert的中文短文本分类,通过Pytorch深度学习框架实现,采取fine-tuning的策略,在Bert模型(ERNIE模型)后接入CNN、RNN、RCNN、DPCNN等模型(其他仓库中所实现的上述模型大部分多少与论文中的结构有所出入,如RCNN,本仓库所实现的模型除少部分超参数外均与原论文相同),附带数据集为取自THUCNews新闻数据集的65000条新闻数据。
## 二、说明
### 2.1 模型效果
* 当选择Bert作为预训练词向量模型时,直接接全连接层和接更加复杂的深度学习模型在最终测试集f1-score相差不超过2%。后续模型不变,预词向量模型更换为ERNIE后提升4%~5%。
* 部分模型的训练、验证、测试如下图所示
* BertCNN
<img width="700" height="400" src="https://github.com/YangHan-Morningstar/Bert-Chinese-ShortText-Classification/blob/master/img/bert_cnn.jpg"/>
* BertRNN
<img width="700" height="400" src="https://github.com/YangHan-Morningstar/Bert-Chinese-ShortText-Classification/blob/master/img/bert_rnn.jpg"/>
* ERNIE-Base
<img width="700" height="400" src="https://github.com/YangHan-Morningstar/Bert-Chinese-ShortText-Classification/blob/master/img/ernie_base.jpg"/>
### 2.2 数据介绍
* THUCNews数据集的一个真子集,分为体育、娱乐、家居、房产、教育、时尚、时政、游戏、科技、财经十类。
* 训练集:50000条,验证集:5000条,测试集:10000条。
### 2.3 论文
* Bert:Pre-training of Deep Bidirectional Transformers for Language Understanding
* ERNIE:Enhanced Representation through Knowledge Integration
* TextCNN:Convolutional Neural Networks for Sentence Classification
* TextRCNN:Recurrent Convolutional Neural Networks for Text Classification
* TextDPCNN:Deep Pyramid Convolutional Neural Networks for Text Categorization
### 2.4 使用
* Models文件下存储模型的py文件,每个文件中都有一个Config类,用于初始化数据路径、预训练模型路径等。
* 使用之前需要将数据集、预训练文件放在相应目录下,详情请看cnews、bert_pretrain、ERNIE_pretrain下的readme。
* 直接使用命令`CUDA_VISIBLE_DEVICES=0 python main.py --model="模型所在的py文件名,如bert_base"`即可开始训练。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
基于Bert+Pytorch的中文短文本分类项目源码+文档说明.zip 这是95分以上高分必过课程设计项目,下载即用无需修改,确保可以运行。也可作为期末大作业。 基于Bert+Pytorch的中文短文本分类项目源码+文档说明.zip 这是95分以上高分必过课程设计项目,下载即用无需修改,确保可以运行。也可作为期末大作业。基于Bert+Pytorch的中文短文本分类项目源码+文档说明.zip 这是95分以上高分必过课程设计项目,下载即用无需修改,确保可以运行。也可作为期末大作业。基于Bert+Pytorch的中文短文本分类项目源码+文档说明.zip 这是95分以上高分必过课程设计项目,下载即用无需修改,确保可以运行。也可作为期末大作业。基于Bert+Pytorch的中文短文本分类项目源码+文档说明.zip 这是95分以上高分必过课程设计项目,下载即用无需修改,确保可以运行。也可作为期末大作业。基于Bert+Pytorch的中文短文本分类项目源码+文档说明.zip 这是95分以上高分必过课程设计项目,下载即用无需修改,确保可以运行。也可作为期末大作业。基于Bert+Pytorch的中文
资源推荐
资源详情
资源评论
收起资源包目录
基于Bert+Pytorch的中文短文本分类项目源码+文档说明.zip (35个子文件)
主-master
utils.py 4KB
ERNIE_pretrain
README.md 181B
main.py 1KB
bert_pretrain
README.md 181B
img
ernie_base.jpg 1.04MB
bert_cnn.jpg 1.05MB
bert_rnn.jpg 1.03MB
pytorch_pretrained
convert_openai_checkpoint_to_pytorch.py 3KB
__init__.py 1KB
modeling_gpt2.py 31KB
modeling_transfo_xl_utilities.py 16KB
tokenization_gpt2.py 13KB
modeling_openai.py 37KB
optimization_openai.py 5KB
convert_transfo_xl_checkpoint_to_pytorch.py 6KB
file_utils.py 9KB
modeling.py 59KB
convert_gpt2_checkpoint_to_pytorch.py 3KB
optimization.py 13KB
__main__.py 4KB
modeling_transfo_xl.py 58KB
tokenization_openai.py 14KB
tokenization.py 17KB
tokenization_transfo_xl.py 22KB
convert_tf_checkpoint_to_pytorch.py 3KB
cnews
README.md 193B
models
bert_rnn.py 2KB
ernie_dpcnn.py 3KB
bert_dpcnn.py 3KB
bert_rcnn.py 3KB
bert_base.py 2KB
ernie_base.py 2KB
bert_cnn.py 3KB
train.py 5KB
README.md 2KB
共 35 条
- 1
资源评论
- gzy06052024-04-05超赞的资源,感谢资源主分享,大家一起进步!
- guangchengsishen2024-03-07这个资源对我启发很大,受益匪浅,学到了很多,谢谢分享~
程序员张小妍
- 粉丝: 1w+
- 资源: 3252
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功