text-classification-cnn-rnn-master.zip_CNN_CNNRNN_RNNCNN分类_RN

共18个文件

py：9个

png：4个

gitignore：1个

版权申诉

159 浏览量 2022-09-21 00:01:53 上传评论 1 收藏 410KB ZIP 举报

标题中的"text-classification-cnn-rnn-master.zip"是一个压缩包文件，暗示着这是一个关于文本分类的项目，可能包含了使用卷积神经网络（CNN）和循环神经网络（RNN）的实现。"CNN_CNN RNN_RNN CNN 分类_RN"这部分进一步确认了这个项目是围绕这两种神经网络模型进行的，特别是用于文本分类任务。描述中提到“使用TensorFlow实现中文新闻类别分类”，这表明项目是用谷歌的开源深度学习库TensorFlow来完成的，目的是对中文新闻进行自动分类。文本分类是自然语言处理（NLP）领域的一个重要任务，它旨在将文本自动归类到预定义的类别中，如经济、体育、娱乐等。在标签部分，我们看到"cnn"、"cnn_rnn"、"rnn_cnn_分类"、"rnn分类"和"rnn_分类"，这些标签揭示了项目中可能涵盖了CNN和RNN两种模型的结合，以及它们在分类任务上的应用。CNN通常擅长捕捉局部特征，而RNN则擅长处理序列数据，如文本，具有记忆性。在NLP中，结合这两种模型可以利用它们各自的优势，提升分类性能。 "压缩包子文件的文件名称列表"仅给出了"test-classification-cnn-rnn-master"，这可能是项目的根目录，包含源代码、数据集、模型配置等资源。通常，这样的项目结构会包括如下部分： 1. 数据集：用于训练和测试的中文新闻文本。 2. 预处理脚本：将文本转换为适合CNN和RNN处理的数值形式，如词嵌入（word embeddings）。 3. 模型代码：CNN和RNN的实现，可能有单独的模型，也可能有结合的模型。 4. 训练脚本：控制训练过程，包括参数设置、优化器选择、损失函数等。 5. 评估脚本：用于验证和测试模型性能的代码。 6. 结果和日志：记录训练过程和性能指标。这个项目可能涉及以下关键技术点： 1. **词嵌入**：将文本中的词语转化为向量表示，如使用预训练的Word2Vec或GloVe模型，或通过训练自己的嵌入层。 2. **卷积神经网络（CNN）**：在文本分类中，CNN通常用于提取文本的局部特征，如n-gram的重要性。 3. **循环神经网络（RNN）**：特别是长短时记忆网络（LSTM），用于捕捉文本的序列信息和长期依赖。 4. **模型融合**：CNN和RNN的结合，如CNN-RNN架构，先通过CNN提取特征，然后用RNN处理序列信息。 5. **TensorFlow**：深度学习框架，提供构建和训练模型的工具。 6. **损失函数**：如交叉熵损失，用于衡量模型预测与真实标签之间的差异。 7. **优化器**：如Adam，用于更新模型参数以最小化损失。 8. **训练策略**：可能包括批量梯度下降、早停等方法，以防止过拟合。通过这个项目，开发者可以学习到如何在TensorFlow中实现文本分类，以及如何结合CNN和RNN来处理中文文本，这对于深入理解深度学习在NLP中的应用非常有价值。

资源推荐

资源详情

资源评论

收起资源包目录

text-classification-cnn-rnn-master.zip （18个子文件）

text-classification-cnn-rnn-master

cnn_model.py 3KB

images

acc_loss_rnn.png 135KB

cnn_architecture.png 59KB

rnn_architecture.png 56KB

acc_loss.png 181KB

data

__init__.py 0B

cnews_loader.py 4KB

run_cnn.py 7KB

rnn_model.py 3KB

predict.py 2KB

LICENSE 1KB

run_rnn.py 7KB

requirements.txt 24B

.gitignore 96B

README.md 14KB

helper

__init__.py 0B

copy_data.sh 440B

cnews_group.py 2KB

# Text Classification with CNN and RNN 使用卷积神经网络以及循环神经网络进行中文文本分类 CNN做句子分类的论文可以参看: [Convolutional Neural Networks for Sentence Classification](https://arxiv.org/abs/1408.5882) 还可以去读dennybritz大牛的博客：[Implementing a CNN for Text Classification in TensorFlow](http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/) 以及字符级CNN的论文：[Character-level Convolutional Networks for Text Classification](https://arxiv.org/abs/1509.01626) 本文是基于TensorFlow在中文数据集上的简化实现，使用了字符级CNN和RNN对中文文本进行分类，达到了较好的效果。文中所使用的Conv1D与论文中有些不同，详细参考官方文档：[tf.nn.conv1d](https://www.tensorflow.org/api_docs/python/tf/nn/conv1d) ## 环境 - Python 2/3 (感谢[howie.hu](https://github.com/howie6879)调试Python2环境) - TensorFlow 1.3以上 - numpy - scikit-learn - scipy ## 数据集使用THUCNews的一个子集进行训练与测试，数据集请自行到[THUCTC：一个高效的中文文本分类工具包](http://thuctc.thunlp.org/)下载，请遵循数据提供方的开源协议。本次训练使用了其中的10个分类，每个分类6500条数据。类别如下： ``` 体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐 ``` 这个子集可以在此下载：链接: https://pan.baidu.com/s/1hugrfRu 密码: qfud 数据集划分如下： - 训练集: 5000*10 - 验证集: 500*10 - 测试集: 1000*10 从原数据集生成子集的过程请参看`helper`下的两个脚本。其中，`copy_data.sh`用于从每个分类拷贝6500个文件，`cnews_group.py`用于将多个文件整合到一个文件中。执行该文件后，得到三个数据文件： - cnews.train.txt: 训练集(50000条) - cnews.val.txt: 验证集(5000条) - cnews.test.txt: 测试集(10000条) ## 预处理 `data/cnews_loader.py`为数据的预处理文件。 - `read_file()`: 读取文件数据; - `build_vocab()`: 构建词汇表，使用字符级的表示，这一函数会将词汇表存储下来，避免每一次重复处理; - `read_vocab()`: 读取上一步存储的词汇表，转换为`{词：id}`表示; - `read_category()`: 将分类目录固定，转换为`{类别: id}`表示; - `to_words()`: 将一条由id表示的数据重新转换为文字; - `preocess_file()`: 将数据集从文字转换为固定长度的id序列表示; - `batch_iter()`: 为神经网络的训练准备经过shuffle的批次的数据。经过数据预处理，数据的格式如下： | Data | Shape | Data | Shape | | :---------- | :---------- | :---------- | :---------- | | x_train | [50000, 600] | y_train | [50000, 10] | | x_val | [5000, 600] | y_val | [5000, 10] | | x_test | [10000, 600] | y_test | [10000, 10] | ## CNN卷积神经网络 ### 配置项 CNN可配置的参数如下所示，在`cnn_model.py`中。 ```python class TCNNConfig(object): """CNN配置参数""" embedding_dim = 64 # 词向量维度 seq_length = 600 # 序列长度 num_classes = 10 # 类别数 num_filters = 128 # 卷积核数目 kernel_size = 5 # 卷积核尺寸 vocab_size = 5000 # 词汇表达小 hidden_dim = 128 # 全连接层神经元 dropout_keep_prob = 0.5 # dropout保留比例 learning_rate = 1e-3 # 学习率 batch_size = 64 # 每批训练大小 num_epochs = 10 # 总迭代轮次 print_per_batch = 100 # 每多少轮输出一次结果 save_per_batch = 10 # 每多少轮存入tensorboard ``` ### CNN模型具体参看`cnn_model.py`的实现。大致结构如下： ![images/cnn_architecture](images/cnn_architecture.png) ### 训练与验证运行 `python run_cnn.py train`，可以开始训练。 > 若之前进行过训练，请把tensorboard/textcnn删除，避免TensorBoard多次训练结果重叠。 ``` Configuring CNN model... Configuring TensorBoard and Saver... Loading training and validation data... Time usage: 0:00:14 Training and evaluating... Epoch: 1 Iter: 0, Train Loss: 2.3, Train Acc: 10.94%, Val Loss: 2.3, Val Acc: 8.92%, Time: 0:00:01 * Iter: 100, Train Loss: 0.88, Train Acc: 73.44%, Val Loss: 1.2, Val Acc: 68.46%, Time: 0:00:04 * Iter: 200, Train Loss: 0.38, Train Acc: 92.19%, Val Loss: 0.75, Val Acc: 77.32%, Time: 0:00:07 * Iter: 300, Train Loss: 0.22, Train Acc: 92.19%, Val Loss: 0.46, Val Acc: 87.08%, Time: 0:00:09 * Iter: 400, Train Loss: 0.24, Train Acc: 90.62%, Val Loss: 0.4, Val Acc: 88.62%, Time: 0:00:12 * Iter: 500, Train Loss: 0.16, Train Acc: 96.88%, Val Loss: 0.36, Val Acc: 90.38%, Time: 0:00:15 * Iter: 600, Train Loss: 0.084, Train Acc: 96.88%, Val Loss: 0.35, Val Acc: 91.36%, Time: 0:00:17 * Iter: 700, Train Loss: 0.21, Train Acc: 93.75%, Val Loss: 0.26, Val Acc: 92.58%, Time: 0:00:20 * Epoch: 2 Iter: 800, Train Loss: 0.07, Train Acc: 98.44%, Val Loss: 0.24, Val Acc: 94.12%, Time: 0:00:23 * Iter: 900, Train Loss: 0.092, Train Acc: 96.88%, Val Loss: 0.27, Val Acc: 92.86%, Time: 0:00:25 Iter: 1000, Train Loss: 0.17, Train Acc: 95.31%, Val Loss: 0.28, Val Acc: 92.82%, Time: 0:00:28 Iter: 1100, Train Loss: 0.2, Train Acc: 93.75%, Val Loss: 0.23, Val Acc: 93.26%, Time: 0:00:31 Iter: 1200, Train Loss: 0.081, Train Acc: 98.44%, Val Loss: 0.25, Val Acc: 92.96%, Time: 0:00:33 Iter: 1300, Train Loss: 0.052, Train Acc: 100.00%, Val Loss: 0.24, Val Acc: 93.58%, Time: 0:00:36 Iter: 1400, Train Loss: 0.1, Train Acc: 95.31%, Val Loss: 0.22, Val Acc: 94.12%, Time: 0:00:39 Iter: 1500, Train Loss: 0.12, Train Acc: 98.44%, Val Loss: 0.23, Val Acc: 93.58%, Time: 0:00:41 Epoch: 3 Iter: 1600, Train Loss: 0.1, Train Acc: 96.88%, Val Loss: 0.26, Val Acc: 92.34%, Time: 0:00:44 Iter: 1700, Train Loss: 0.018, Train Acc: 100.00%, Val Loss: 0.22, Val Acc: 93.46%, Time: 0:00:47 Iter: 1800, Train Loss: 0.036, Train Acc: 100.00%, Val Loss: 0.28, Val Acc: 92.72%, Time: 0:00:50 No optimization for a long time, auto-stopping... ``` 在验证集上的最佳效果为94.12%，且只经过了3轮迭代就已经停止。准确率和误差如图所示： ![images](images/acc_loss.png) ### 测试运行 `python run_cnn.py test` 在测试集上进行测试。 ``` Configuring CNN model... Loading test data... Testing... Test Loss: 0.14, Test Acc: 96.04% Precision, Recall and F1-Score... precision recall f1-score support 体育 0.99 0.99 0.99 1000 财经 0.96 0.99 0.97 1000 房产 1.00 1.00 1.00 1000 家居 0.95 0.91 0.93 1000 教育 0.95 0.89 0.92 1000 科技 0.94 0.97 0.95 1000 时尚 0.95 0.97 0.96 1000 时政 0.94 0.94 0.94 1000 游戏 0.97 0.96 0.97 1000 娱乐 0.95 0.98 0.97 1000 avg / total 0.96 0.96 0.96 10000 Confusion Matrix... [[991 0 0 0 2 1 0 4 1 1] [ 0 992 0 0 2 1 0 5 0 0] [ 0 1 996 0 1 1 0 0 0 1] [ 0 14 0 912 7 15 9 29 3 11] [ 2 9 0 12 892 22 18 21 10 14] [ 0 0 0 10 1 968 4 3 12 2] [ 1 0 0 9 4 4 971 0 2 9] [ 1 16 0 4 18 12 1 941 1 6] [ 2 4 1 5 4 5 10 1 962 6] [ 1 0 1 6 4 3 5 0 1 979]] Time usage: 0:00:05 ``` 在测试集上的准确率达到了96.04%，且各类的precision, recall和f1-score都超过了0.9。从混淆矩阵也可以看出分类效果非常优秀。 ## RNN循环神经网络 ### 配置项 RNN可配置的参数如下所示，在`r

评论收藏

内容反馈

版权申诉