# Text Classification with CNN
# 引用
本项目引用借鉴:https://github.com/gaussic/text-classification-cnn-rnn
## 环境
| 模块 | 版本 |
| :----------: | :----------: |
| python | 2.7.13 |
| tensorflow | 1.10.0 |
| numpy | 1.16.2 |
| scikit-learn | 0.19.0 |
| scipy | 0.19.1 |
## 数据集
使用THUCNews的一个子集进行训练与测试,数据集请自行到[THUCTC:一个高效的中文文本分类工具包](http://thuctc.thunlp.org/)下载,请遵循数据提供方的开源协议。
本项目使用THUCNews数据集所有类别共计10个,每个类别6500条数据。
类别如下:
```
体育, 娱乐, 家居, 教育, 时政, 游戏, 社会, 科技, 股票, 财经
```
数据集划分如下:
| 训练集 | 验证集 | 测试集 |
| :----------: | :----------: | :----------: |
| 5000*10 | 500*10 | 1000*10 |
从原始数据集生成子集的过程参考`helper`下的两个脚本。其中,`copy_data.py`用于从每个分类拷贝6500个文件,`cnews_group.py`用于将多个文件整合到一个文件中。执行`cnews_loader.py`文件后,得到三个数据文件。
链接: https://pan.baidu.com/s/1hugrfRu 密码: qfud 。下载或者生成`cnews.train.txt, cnews.val.txt, cnews.test.txt`三个文件之后,运行`data`下的`cnews_seg.py`脚本,用于生成训练集分词文件、验证集分词文件、测试集分词文件和以词为单位的词汇表文件。
下载链接:https://pan.baidu.com/s/1KuzMatR8twNSQNVTSHiycQ 密码: p1io 。
| 文件 | 类型 | 数目 |
| :---------- | :---------- | :---------- |
| cnews.train.txt | 训练集 | 50000 |
| cnews.val.txt | 验证集 | 5000 |
| cnews.test.txt | 测试集 | 10000 |
| cnews.train.seg.txt | 训练集分词文件 | 50000 |
| cnews.val.seg.txt | 验证集分词文件 | 5000 |
| cnews.test.seg.txt | 测试集分词文件 | 10000 |
## 预处理
`data/cnews_loader.py`为数据的预处理文件。
| 函数 | 说明 |
| :---------- | :---------- |
| read_file() | 读取文件数据 |
| build_vocab() | 构建词汇表,长度5000,使用字符级的表示,这一函数会将词汇表存储下来,避免每一次重复处理 |
| read_vocab() | 读取上一步存储的词汇表,转换为`{词:id}`表示 |
| read_category() | 将分类目录固定,转换为`{类别: id}`表示 |
| to_words() | 将一条由id表示的数据重新转换为文字 |
| process_file() | 将数据集从文字转换为固定长度的id序列表示 |
| batch_iter() | 为神经网络的训练准备经过shuffle的批次的数据 |
`data/cnews_seg.py`为数据的分词文件。
| 函数 | 说明 |
| :---------- | :---------- |
| check_number() | 判断一个字符串是否为数字,用于筛掉一篇文档里的数字 |
| load_stopwords() | 导入常见停用词,用于筛掉一篇文档里的停用词 |
| read_file_seg() | 读取文件并进行分词 |
| build_vocab() | 利用训练集生成词汇表(使用词语级表示),长度3000 |
经过数据预处理,数据的格式如下,其中`seq_length`为单篇文档的`embedding`序列长度,当使用`char`字符级别时`seq_length=600`,当使用`word`词语级别时`seq_length=400`:
| Data | Shape | Data | Shape |
| :---------- | :---------- | :---------- | :---------- |
| x_train | [50000, seq_length] | y_train | [50000, 10] |
| x_val | [5000, seq_length] | y_val | [5000, 10] |
| x_test | [10000, seq_length] | y_test | [10000, 10] |
## CNN卷积神经网络
### 配置项
CNN可配置的参数如下所示,在`cnn_model.py`中。
```python
class TCNNConfig(object):
"""CNN配置参数"""
embedding_dim = 64 # 词向量维度
seq_length = 600 # 序列长度,600(char),400(word)
num_classes = 10 # 类别数
num_filters = 128 # 卷积核数目
kernel_size = 5 # 卷积核尺寸
vocab_size = 5000 # 词汇表达小,5000(char),3000(word)
hidden_dim = 128 # 全连接层神经元
dropout_keep_prob = 0.5 # dropout保留比例
learning_rate = 1e-3 # 学习率
batch_size = 64 # 每批训练大小
num_epochs = 10 # 总迭代轮次
print_per_batch = 100 # 每多少轮输出一次结果
save_per_batch = 10 # 每多少轮存入tensorboard
```
### CNN模型
具体参看`cnn_model.py`的实现。
大致结构如下:
![images/cnn_architecture](images/cnn_architecture.png)
### 训练与验证-字符级
运行 `python run_cnn.py train char `,可以开始训练。
> 若之前进行过训练,请把tensorboard/textcnn删除,避免TensorBoard多次训练结果重叠。
```
Epoch: 3
Iter: 1600, Train Loss: 0.03, Train Acc: 100.00%, Val Loss: 0.18, Val Acc: 95.18%, Time: 0:00:28
Iter: 1700, Train Loss: 0.099, Train Acc: 96.88%, Val Loss: 0.18, Val Acc: 95.02%, Time: 0:00:30
Iter: 1800, Train Loss: 0.052, Train Acc: 96.88%, Val Loss: 0.19, Val Acc: 94.88%, Time: 0:00:32
Iter: 1900, Train Loss: 0.043, Train Acc: 98.44%, Val Loss: 0.19, Val Acc: 95.00%, Time: 0:00:33
Iter: 2000, Train Loss: 0.082, Train Acc: 96.88%, Val Loss: 0.2, Val Acc: 94.70%, Time: 0:00:35
Iter: 2100, Train Loss: 0.088, Train Acc: 98.44%, Val Loss: 0.18, Val Acc: 94.96%, Time: 0:00:36
Iter: 2200, Train Loss: 0.017, Train Acc: 100.00%, Val Loss: 0.19, Val Acc: 94.86%, Time: 0:00:38
Iter: 2300, Train Loss: 0.059, Train Acc: 98.44%, Val Loss: 0.18, Val Acc: 95.36%, Time: 0:00:40
No optimization for a long time, auto-stopping...
```
当使用字符级别embedding时,在验证集上的最佳效果为95.36%,且只经过了3轮迭代就已经停止。
准确率和误差如图所示:
![images](images/acc_loss_char.png)
### 测试-字符级
运行 `python run_cnn.py test char ` 在测试集上进行测试。
```
Test Loss: 0.12, Test Acc: 96.60%
Precision, Recall and F1-Score...
precision recall f1-score support
体育 0.99 0.99 0.99 1000
财经 0.95 0.99 0.97 1000
房产 1.00 0.99 1.00 1000
家居 0.97 0.90 0.93 1000
教育 0.94 0.95 0.94 1000
科技 0.97 0.97 0.97 1000
时尚 0.94 0.98 0.96 1000
时政 0.96 0.94 0.95 1000
游戏 0.98 0.97 0.98 1000
娱乐 0.97 0.97 0.97 1000
avg / total 0.97 0.97 0.97 10000
Confusion Matrix...
[[992 0 0 1 5 1 0 1 0 0]
[ 0 995 0 0 0 1 0 4 0 0]
[ 1 1 995 1 2 0 0 0 0 0]
[ 2 19 1 904 18 8 17 22 3 6]
[ 2 7 0 6 946 6 12 10 5 6]
[ 0 3 0 5 3 967 14 1 6 1]
[ 1 0 0 6 5 4 977 0 0 7]
[ 0 21 1 6 20 9 0 937 1 5]
[ 1 3 0 1 4 2 12 0 972 5]
[ 1 0 0 5 8 3 6 0 2 975]]
```
当使用字符级别embedding时,在测试集上的准确率达到了96.6%,且各类的precision, recall和f1-score都超过了0.9。从混淆矩阵也可以看出分类效果非常优秀。
### 训练与验证-词语级
运行 `python run_cnn.py train word `,可以开始训练。
> 若之前进行过训练,请把tensorboard/textcnn删除,避免TensorBoard多次训练结果重叠。
```
Epoch: 3
Iter: 1600, Train Loss: 0.059, Train Acc: 96.88%, Val Loss: 0.2, Val Acc: 94.26%, Time: 0:00:21
Iter: 1700, Train Loss: 0.026, Train Acc: 100.00%, Val Loss: 0.17, Val Acc: 95.42%, Time: 0:00:22
Iter: 1800, Train Loss: 0.056, Train Acc: 98.44%, Val Loss: 0.17, Val Acc: 95.34%, Time: 0:00:23
Iter: 1900, Train Loss: 0.13, Train Acc: 95.31%, Val Loss: 0.17, Val Acc: 95.32%, Time: 0:00:24
No optimization for a long time, auto-stopping...
```
当使用词语级别embeddin
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【资源说明】 1、该资源内项目代码都是经过测试运行成功,功能正常的情况下才上传的,请放心下载使用。 2、适用人群:主要针对计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、数学、电子信息等)的同学或企业员工下载使用,具有较高的学习借鉴价值。 3、不仅适合小白学习实战练习,也可作为大作业、课程设计、毕设项目、初期项目立项演示等,欢迎下载,互相学习,共同进步!
资源推荐
资源详情
资源评论
收起资源包目录
基于深度学习(tensorflow)的中文文本分类算法python源码+项目说明.zip (13个子文件)
code_30312
helper
__init__.py 0B
copy_data.py 1KB
cnews_group.py 2KB
data
__init__.py 1B
cnews_loader.py 4KB
cnews_seg.py 3KB
cnews
stopwords.txt 13KB
run_cnn.py 8KB
images
acc_loss_char.png 26KB
acc_loss_word.png 26KB
cnn_architecture.png 59KB
README.md 10KB
cnn_model.py 3KB
共 13 条
- 1
资源评论
龙年行大运
- 粉丝: 1002
- 资源: 3854
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功