zh_cnn_text_classify
Python
Python
共30个文件
py: 5
data-00000-of-00001: 5
index: 5
meta: 5
utf8: 2
escenter11PC: 2
gitignore: 1
md: 1
runs/1492954581/checkpoints/checkpoint: 1
csv: 1
基于CNN的中文文本分类算法(可应用于垃圾邮件过滤、情感分析等场景)
基于cnn的中文文本分类算法
简介
参考IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW实现的一个简单的卷积神经网络,用于中文文本分类任务(此项目使用的数据集是中文垃圾邮件识别任务的数据集),数据集下载地址:百度网盘
区别
原博客实现的cnn用于英文文本分类,没有使用word2vec来获取单词的向量表达,而是在网络中添加了embedding层来来获取向量。
而此项目则是利用word2vec先获取中文测试数据集中各个字的向量表达,再输入卷积网络进行分类。
运行方法
训练
run python train.py to train the cnn with the spam and ham files (only support chinese!) (change the config filepath in FLAGS to your own)
在tensorboard上查看summaries
run tensorboard --logdir /{PATH_TO_CODE}/runs/{TIME_DIR}/summaries/ to view summaries in web view
测试、分类
run python eval.py --checkpoint_dir /{PATH_TO_CODE/runs/{TIME_DIR}/checkpoints}
如果需要分类自己提供的文件,请更改相关输入参数
如果需要测试准确率,需要指定对应的标签文件(input_label_file):
python eval.py --input_label_file /PATH_TO_INPUT_LABEL_FILE
说明:input_label_file中的每一行是0或1,需要与input_text_file中的每一行对应。
在eval.py中,如果有这个对照标签文件input_label_file,则会输出预测的准确率
推荐运行环境
python 2.7.13 :: Anaconda 4.3.1 (64-bit)
tensorflow 1.0.0
gensim 1.0.1
Ubuntu16.04 64bit
说明
若按照以上步骤无法正常运行程序,请在Issues或在博客中提问,我会尽快回复。
https://gitee.com/hitwh_cheng/zh_cnn_text_classify
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
项目概述:本项目基于卷积神经网络(CNN)实现了一套中文文本分类算法,适用于垃圾邮件过滤、情感分析等多种应用场景。主要采用Python语言开发,包含总计30个文件,其中5个Python源代码文件,5个数据文件(data-00000-of-00001),5个索引文件(index),5个元数据文件(meta),2个UTF-8编码文件,2个配置文件(escenter11PC),1个Git忽略文件,1个Markdown文档,以及1个TensorFlow运行记录中的检查点文件。该项目旨在提供高效的中文文本处理能力,以促进自然语言处理技术在中文语境下的应用与发展。
资源推荐
资源详情
资源评论
收起资源包目录
upload.zip (30个子文件)
eval.py 5KB
data
spam_100.utf8 44KB
ham_100.utf8 58KB
runs
1492954581
training_params.pickle 59B
prediction.csv 45KB
trained_word2vec.model 845KB
summaries
train
events.out.tfevents.1492954586.escenter11PC 14.84MB
dev
events.out.tfevents.1492954586.escenter11PC 156KB
checkpoints
checkpoint 697B
model-400.index 1009B
model-200.meta 100KB
model-300.data-00000-of-00001 2.26MB
model-600.data-00000-of-00001 2.26MB
model-300.index 1009B
model-500.index 1009B
model-200.data-00000-of-00001 2.26MB
model-400.meta 100KB
model-600.index 1009B
model-600.meta 100KB
model-200.index 1009B
model-500.data-00000-of-00001 2.26MB
model-400.data-00000-of-00001 2.26MB
model-500.meta 100KB
model-300.meta 100KB
text_cnn.py 3KB
data_helpers.py 4KB
.gitignore 14B
train.py 9KB
word2vec_helpers.py 3KB
readme.txt 2KB
共 30 条
- 1
资源评论
- xiaoli2228692024-04-15非常有用的资源,有一定的参考价值,受益匪浅,值得下载。
- m0_678829302024-04-23资源很实用,对我启发很大,有很好的参考价值,内容详细。
沐知全栈开发
- 粉丝: 5670
- 资源: 5163
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- c++课程设计-个人收支管理系统.7z
- c++课程设计-产品入库管理操作系统.7z
- c&c++课程设计-学生成绩管理系统.7z
- 课程设计:包含图书管理系统的增删改查操作
- java基于ssm+jsp一家运动鞋店的产品推广网站系统源码 带毕业论文
- java基于ssm+jsp协同过滤技术的网上书城系统源码 带毕业论文
- 基于C语言+python开发的SFM社会力模型单房间疏散场景仿真+源码+实验报告+仿真结果(毕业设计&课程设计&项目开发)
- java基于ssm+jsp网络游戏交易系统源码 带毕业论文
- java基于ssm+jsp游戏商城系统源码 带毕业论文
- ROS stage仿真,机器人模型是turtlebot,目标把stage独立封装,使得不在ROS下的进程也能使用stage仿真
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功