# Easy_Lstm_Cnn
Lstm+Cnn 预训练词向量 文本分类
# 数据集:
本实验是使用THUCNews的一个子集进行训练与测试,数据集请自行到THUCTC:一个高效的中文文本分类工具包下载,请遵循数据提供方的开源协议;
文本类别涉及10个类别:categories = ['体育', '财经', '房产', '家居', '教育', '科技', '时尚', '时政', '游戏', '娱乐'],每个分类6500条数据;
cnews.train.txt: 训练集(5000*10)
cnews.val.txt: 验证集(500*10)
cnews.test.txt: 测试集(1000*10)
训练所用的数据,以及训练好的词向量可以下载:链接: https://pan.baidu.com/s/1daGvDO4UBE5NVrcLaCGeqA 提取码: 9x3i
# 1.利用Lstm+Cnn进行文本分类
将LSTM与CNN连接在一起的关键:LSTM返回的值为[batch_size,seq_length,hidden_dim],而cnn需要的四维张量,故需要用到tf.expang_dims。
## 模型参数
parameters.py
## 预处理
预训练词向量进行embedding
对句子分词,去标点符号
去停用词
文字转数字
padding等
因为Cnn处理的是等长的序列,故在padding时,将所有句子padding到同一长度,本文指定最长序列max_length=300。
程序在data_processing.py
## 运行步骤
Training.py
由于小霸王运行非常吃力,因此只进行了3次迭代。但从迭代的效果来看,结果很理想。在训练集的batch中最好达到100%,同时测试集达到100%准确。
![train and test result](https://github.com/NLPxiaoxu/Easy_Lstm_Cnn/blob/master/image/train.jpeg)
predict.py 模型用来对验证文本进行预测
![evalutaing result](https://github.com/NLPxiaoxu/Easy_Lstm_Cnn/blob/master/image/predict.jpeg)
验证结果表明,5000条文本准确率达97.7%,取前10条语句的测试结果与原标签对比。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
<项目介绍> Lstm+Cnn 预训练词向量 文本分类 数据集: 本实验是使用THUCNews的一个子集进行训练与测试,数据集请自行到THUCTC:一个高效的中文文本分类工具包下载,请遵循数据提供方的开源协议; 文本类别涉及10个类别:categories = ['体育', '财经', '房产', '家居', '教育', '科技', '时尚', '时政', ' - 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
资源推荐
资源详情
资源评论
收起资源包目录
Easy_Lstm_Cnn-master.zip (22个子文件)
Easy_Lstm_Cnn-master
Lstm_Cnn.py 5KB
image
predict.jpeg 23KB
train.jpeg 120KB
data
vocab_word.txt 80KB
vector_word.npz 4.14MB
stopwords.txt 17KB
Parameters.py 1KB
predict.py 1KB
checkpoints
Lstm_CNN
checkpoint 198B
best_validation-782.meta 4.09MB
best_validation-1564.data-00000-of-00001 14.52MB
best_validation-782.index 1KB
best_validation-1564.index 1KB
best_validation-2346.meta 4.09MB
best_validation-2346.index 1KB
best_validation-782.data-00000-of-00001 14.52MB
best_validation-2346.data-00000-of-00001 14.52MB
best_validation-1564.meta 4.09MB
data_processing.py 4KB
README.md 2KB
Training.py 2KB
tensorboard
Lstm_CNN
events.out.tfevents.1548675677.xuxiangjundeMacBook-Air.local 4.06MB
共 22 条
- 1
资源评论
机智的程序员zero
- 粉丝: 2444
- 资源: 4700
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于FPGA的实验平台AlteraQuatarsII的16位单周期CPU设计.html
- 动态圣诞树html页面完整代码.docx
- 大麦抢票神器源码辅助工具+详尽教程
- V8版本京东淘宝自动抢单系统源码利息宝会员开通全开-附视频教程
- 安全初学者知识速查,可以帮助了解IT小白了解一些安全常识
- 使用WSL批量压缩PDF步骤对应Shell脚本
- 基于微信小程序的校园兼职微信小程序.zip
- 创建emp的数据库sql
- GNSS 数据质量检核软件anubis
- SecureCRT:终端仿真工具,支持多协议,安全高效,提升工作效率
- 彩虹聚合DNS管理系统源码V2.0.1,SSL证书自动申请与部署
- html+css+js网页设计 美食 全屏幕轮播美食1个页面
- 2000-2023年上市公司数字经济产业分组数据(含原始数据+处理代码+结果).zip
- win32汇编环境下,对话框中生成listview列表控件程序
- 温情DS打赏源码,打赏源码多模板
- 2024年个人工作总结(通用版)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功