# 基于cnn的中文文本分类算法
## 简介
参考[IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW](http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/)实现的一个简单的卷积神经网络,用于中文文本分类任务(此项目使用的数据集是中文垃圾邮件识别任务的数据集),数据集下载地址:[百度网盘](https://pan.baidu.com/s/1i4HaYTB)
## 区别
原博客实现的cnn用于英文文本分类,没有使用word2vec来获取单词的向量表达,而是在网络中添加了embedding层来来获取向量。<br/>
而此项目则是利用word2vec先获取中文测试数据集中各个<strong>字</strong>的向量表达,再输入卷积网络进行分类。
## 运行方法
### 训练
run `python train.py` to train the cnn with the <strong>spam and ham files (only support chinese!)</strong> (change the config filepath in FLAGS to your own)
### 在tensorboard上查看summaries
run `tensorboard --logdir /{PATH_TO_CODE}/runs/{TIME_DIR}/summaries/` to view summaries in web view
### 测试、分类
run `python eval.py --checkpoint_dir /{PATH_TO_CODE/runs/{TIME_DIR}/checkpoints}`<br/>
如果需要分类自己提供的文件,请更改相关输入参数
如果需要测试准确率,需要指定对应的标签文件(input_label_file):
python eval.py --input_label_file /PATH_TO_INPUT_LABEL_FILE
说明:input_label_file中的每一行是0或1,需要与input_text_file中的每一行对应。
在eval.py中,如果有这个对照标签文件input_label_file,则会输出预测的准确率
### 推荐运行环境
python 2.7.13 :: Anaconda 4.3.1 (64-bit)
tensorflow 1.0.0
gensim 1.0.1
Ubuntu16.04 64bit

梦回阑珊
- 粉丝: 6534
最新资源
- SEO行业网站策划方案.doc
- 北理工计算机体系结构习题解答.ppt
- 中职计算机教学中存在的问题及对策-1(1).docx
- 第章电子商务订单履行与物流.ppt
- 网络操作系统复习大纲设计(1).pdf
- 信息化视域下中职语文课堂教学模式探究(1).docx
- XXXX年爱美网网站媒体合作方案.pptx
- 教育信息化环境下的教师专业发展路径选择(1).docx
- VB程序设计编程考试题及答案.doc
- C语言上机考试2085613).pdf
- HuLa-Rust资源
- 2022年关于北斗卫星定位的报告重庆大学通信工程学院(1).doc
- 2023年高级项目管理师考试例题共理论模拟题及答案.doc
- NCIE网络工程个人简历范文.docx
- 三讲Matlab的基本函数与代数运算省名师优质课赛课获奖课件市赛课一等奖课件(1).ppt
- 演示文稿单片机数码管显示课件(1).ppt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈


