本项目采用Keras和Keras-bert实现文本多分类任务。
### 维护者
- jclian91
### 数据集
#### sougou小分类数据集
sougou小分类数据集,共有5个类别,分别为体育、健康、军事、教育、汽车。
划分为训练集和测试集,其中训练集每个分类800条样本,测试集每个分类100条样本。
#### THUCNews数据集
使用THUCNews数据集进行训练与测试,10个分类,每个分类6500条数据。
类别如下:
体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐
数据集划分如下:
训练集: 5000 * 10
测试集: 1000 * 10
### 代码结构
```
.
├── chinese_L-12_H-768_A-12(BERT中文预训练模型)
│ ├── bert_config.json
│ ├── bert_model.ckpt.data-00000-of-00001
│ ├── bert_model.ckpt.index
│ ├── bert_model.ckpt.meta
│ └── vocab.txt
├── data(数据集)
│ └── sougou_mini
│ ├── test.csv
│ └── train.csv
├── label.json(类别词典,生成文件)
├── model_evaluate.py(模型评估脚本)
├── model_predict.py(模型预测脚本)
├── model_train.py(模型训练脚本)
└── requirements.txt
```
## 模型效果
#### sougou数据集
模型参数: batch_size = 8, maxlen = 256, epoch=10
评估结果:
```
precision recall f1-score support
体育 0.9802 1.0000 0.9900 99
健康 0.9495 0.9495 0.9495 99
军事 1.0000 1.0000 1.0000 99
教育 0.9307 0.9495 0.9400 99
汽车 0.9895 0.9495 0.9691 99
accuracy 0.9697 495
macro avg 0.9700 0.9697 0.9697 495
weighted avg 0.9700 0.9697 0.9697 495
```
#### THUCNews数据集
模型参数: batch_size = 8, maxlen = 300, epoch=3
评估结果:
```
precision recall f1-score support
体育 0.9970 0.9990 0.9980 1000
娱乐 0.9890 0.9890 0.9890 1000
家居 0.9949 0.7820 0.8757 1000
房产 0.8006 0.8710 0.8343 1000
教育 0.9753 0.9480 0.9615 1000
时尚 0.9708 0.9980 0.9842 1000
时政 0.9318 0.9560 0.9437 1000
游戏 0.9851 0.9950 0.9900 1000
科技 0.9689 0.9970 0.9828 1000
财经 0.9377 0.9930 0.9645 1000
accuracy 0.9528 10000
macro avg 0.9551 0.9528 0.9524 10000
weighted avg 0.9551 0.9528 0.9524 10000
```
### 使用对抗训练FGM前后模型效果对比
#### sougou数据集
模型参数: batch_size = 8, maxlen = 256, epoch=10
评估指标为weighted avg F1 score
|-|train1|train2|train3|train avg|
|---|---|---|---|---|
|使用FGM前|0.9778|0.9697|0.9657|0.9711|
|使用FGM后|0.9778|0.9838|0.9838|0.9818|
#### THUCNews数据集
模型参数: batch_size = 8, maxlen = 300, epoch=3
评估指标为weighted avg F1 score
|-|train1|train2|train3|train avg|
|---|---|---|---|---|
|使用FGM前|0.9524|0.9621|0.9685|0.961|
|使用FGM后|0.9689|0.9723|0.9712|0.9708|
### 项目启动
1. 将BERT中文预训练模型chinese_L-12_H-768_A-12放在chinese_L-12_H-768_A-12文件夹下
2. 所需Python第三方模块参考requirements.txt文档
3. 自己需要分类的数据按照data/sougou_mini的格式准备好
4. 调整模型参数,运行model_train.py进行模型训练
5. 运行model_evaluate.py进行模型评估
6. 运行model_predict.py对新文本进行评估
没有合适的资源?快使用搜索试试~ 我知道了~
keras_bert_text_classification:本项目采用Keras和Keras-bert实现文本多分类任务,对B...
共10个文件
py:5个
csv:2个
gitignore:1个
5星 · 超过95%的资源 需积分: 50 17 下载量 8 浏览量
2021-04-04
21:27:44
上传
评论 4
收藏 6.22MB ZIP 举报
温馨提示
本项目采用Keras和Keras-bert实现文本多分类任务。 维护者 jclian91 数据集 sougou小分类数据集 sougou小分类数据集,共有5个类别,分别为体育,健康,军事,教育,汽车。 划分为训练集和测试集,其中训练集每个分类800条样本,测试集每个分类100条样本。 THUCNews数据集 使用THUCNews数据集进行训练与测试,10个分类,每个分类6500条数据。类别如下:体育,财经,房地产,家居,教育,科技,时尚,时政,游戏,娱乐数据集划分如下:训练集: 5000 * 10测试集:1000 * 10 代码结构 . ├── chinese_L-12_H-768_A-12(BERT中文预训练模型) │ ├── bert_config.json │ ├── bert_model.ckpt.data-00000-of-00001 │ ├── bert_model
资源详情
资源评论
资源推荐
收起资源包目录
keras_bert_text_classification-master.zip (10个子文件)
keras_bert_text_classification-master
model_train.py 5KB
data
sougou_mini
train.csv 13.67MB
test.csv 1.5MB
model_evaluate.py 1KB
FGM.py 3KB
model_server.py 2KB
requirements.txt 61B
.gitignore 78B
model_predict.py 2KB
README.md 4KB
共 10 条
- 1
清净平常心
- 粉丝: 37
- 资源: 4671
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 功率拓扑快速参考指南-ti,TI官方出品
- 开关电源拓朴图表,各种电路拓扑表格
- 登录和注册 前端:vue3+iview plus +axios 后台:spring boot +mybatis
- 软件测试入门简介:从基础到实践的全面介绍
- 2024CDA Level Ⅰ 认证考试大纲
- YOLO 数据集:淋巴病灶检测(1类别,包含训练集、验证集)
- 基于AT91RM9200处理器+XC3S250E(FPGA)+AD5322采集板Cadence ORCAD(硬件原理图+PCB)
- java+vue2实现zebra打印机,js实现
- J-link烧录软件,用于hex文件烧录
- VB打开时间同步页面/Internet时间设置.vbs
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论5