# Short-Text-classification
第十届大学生服务外包大赛(一等奖解决方案)--A01商品短文本分类。采用基于Keras的Word2vec、CNN、Bi-LSTM、Attention、Adversarial等方法实现商品短文本分类任务。基于Flask框架开发模型的可视化交互软件,支持单条文本以及批量文本的分类处理。
## 1.experiment result
模型在50w数据集上的表现(训练集:测试集=40w:10w)
| Model | Accurancy |
| ---- | ---- |
| TextCNN | 0.8820 |
| BiLSTM | 0.8990 |
| BiLSTM-Attention| 0.9056 |
| Adv-BiLSTM-Attention | 0.9156 |
| TextCNN(word) +BiLSTM-Attention(word) +BiLSTM-Attention(char) +Adv-BiLSTM-Attention(word)+Adv-BiLSTM-Attention(char) [加权融合]| 0.9201|
## 2.Requirement
> Keras==2.0.5+
Python3.6+
>pandas==0.20.3
Flask==0.12.2
xlrd==1.1.0
jieba==0.39
tensorflow==1.4.0
h5py==2.7.0
Keras==2.0.5
numpy==1.14.2
## 3.dataset & pretrained model
[public training dataset 50w](https://pan.baidu.com/s/1aSy3fxFNvsorfdq2LuK4pA)(提取码:ac2c)<br>
[Attention-wight-norm-WithPositionEmbedding(0.9088).h5](https://pan.baidu.com/s/1vharQoMO2j_6iL0SYcsfLQ)(提取码:tf4a)<br>
[GRUAttention(0.9175799998474121).h5](https://pan.baidu.com/s/1O-VCIsoPzbvol58ngVV43A)(提取码:epnq)<br>
[TextBiLSTM-weightnorm(0.9156999999237061).h5](https://pan.baidu.com/s/1Ub-lcLeAb_EOEqVwStNNVw)(提取码:1u3b)<br>
[word embedding matrix and the sentence length info of dataset](https://pan.baidu.com/s/1QN0e_LsjEvDU2FJ5QeLrow)(提取码:ki3e)<br>
## 4.installation steps of demo
>1、git clone https://github.com/SaulZhang/Short-Text-classification.git <br>
>2、python webGUI.py <br>
>3、在浏览器的地址栏中输入:http://127.0.0.1:8000/
## 5.交互软件使用说明
### 5.1软件名称
商品文本分类(Commodity Text Classfication)
### 5.2软件功能
#### 5.2.1单条分类
在单条数据分类对应的文本输入框内输入商品名称,然后点击“单个数据分类”按钮,等待模型识别,识别结束后将跳转界面,输出分类结果。若要进行下一次分类,请点击“返回”按钮,重复执行上述操作。
#### 5.2.1批量分类
批量分类时,需要选择待识别的文件(该软件仅支持'.txt','.tsv'两种格式的文件,若选择其他格式的文件,软件将给出错误提示),合法的文件格式为,第一行单独一行为"ITEM_NAME"表示标题(不包含其他分隔符,若文件的内容格式不正确,软件将会给出错误提示,具体内容格式如下图所示),随后的每一行表示一件商品的名称。待选择正确格式内容的文件之后,点击"批量数据分类"按钮,等待模型识别,识别结束后将跳转界面,输出文件中前200条数据的分类结果。最终识别结果的文件将保存在工程文件夹中的'./result/'文件夹下面。
### 5.3支持浏览器
Microsoft Edge 41.16299.967.0+、Firefox66.0.1+、Chrome72.0.3626.96+
## 6.Contributor
[@Saul Zhang](https://github.com/SaulZhang)、[@Caiyuan-Zheng](https://github.com/Caiyuan-Zheng)、[@searcher408](https://github.com/Searcher408)、[@jvyvkai](https://github.com/jvyvkai)、[@Chinazzh8796](https://github.com/Chinazzh8796)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
CSDN IT狂飙上传的代码均可运行,功能ok的情况下才上传的,直接替换数据即可使用,小白也能轻松上手 【资源说明】 Python优秀项目 基于Flask+CNN+Bi-LSTMl等实现商品短文本分类任务源码+部署文档+全部数据资料.zip 1、代码压缩包内容 代码的项目文件 部署文档文件 2、代码运行版本 python3.7或者3.7以上的版本;若运行有误,根据提示GPT修改;若不会,私信博主(问题描述要详细) 3、运行操作步骤 步骤一:将代码的项目目录使用IDEA打开(IDEA要配置好python环境) 步骤二:根据部署文档或运行提示安装项目所需的库 步骤三:IDEA点击运行,等待程序服务启动完成 4、python资讯 如需要其他python项目的定制服务,可后台私信博主(注明你的项目需求) 4.1 python或人工智能项目辅导 4.2 python或人工智能程序定制 4.3 python科研合作 Django、Flask、Pytorch、Scrapy、PyQt、爬虫、可视化、大数据、推荐系统、人工智能、大模型
资源推荐
资源详情
资源评论
收起资源包目录
Python优秀项目 基于Flask+CNN+Bi-LSTMl等实现商品短文本分类任务源码+部署文档+全部数据资料.zip (43个子文件)
Short-Text-classification-master
demo
data
label2idx_dict.pkl 64KB
word2idx_dict.pkl 1.94MB
predict.py 3KB
templates
Wait.html 2KB
help.html 2KB
index.html 2KB
Single_data_classification_result.html 2KB
Batch_data_classification_results.html 2KB
webGUI.py 12KB
getFinalResult.py 17KB
testdata
test_GUI.tsv 794B
test_GUI.txt 794B
test-100example.tsv 9KB
static
js
wait2.js 3KB
wait.js 3KB
img
timg2.jpg 1.48MB
wait.jpg 10KB
格式.png 19KB
timg3.jpg 53KB
timg.jpg 646KB
yemi.png 13KB
css
style.css 3KB
result
result-test_GUI.tsv 1KB
result-test_pre.txt 1KB
result-test_GUI.txt 1KB
result-test_pre.tsv 1KB
解决方案.mp4 7.05MB
model
weightnorm.py 9KB
basicProcess.py 6KB
dataPreprocess.py 10KB
word2vec.py 3KB
main.py 3KB
ensemble_stacking.py 12KB
TextRNNmodel.py 11KB
MyModel.py 4KB
LSTMAttention.py 7KB
ensemble_weight_average.py 14KB
TextCNNmodel.py 5KB
README.md 3KB
解决方案_final.pdf 1.12MB
python系统部署文档.md 14KB
Flask系统部署文档.md 4KB
171265889347208773632.zip 416B
共 43 条
- 1
资源评论
IT狂飙
- 粉丝: 4840
- 资源: 2651
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 免费,局域网,IP电话, SIP, VOIP, 视频通话,可与PC互通,手机版本, apk版本
- 自动驾驶业务未来:未来交通
- Linux防火墙的概述 包过滤的防火墙工作层次 netfileter firewalld
- STM32驱动CC1101代码与pdf
- ToolPlatform
- 某平台北京二手房数据.zip
- 通讯原理 的应用级开发 嵌入式
- 识别机械手sw17可编辑全套技术开发资料100%好用.zip
- 基于STM32F103C8T6的PS2遥控小车源码及接线(已调)
- (4891456)基于单片机交通灯系统
- (8814216)LIBSVM 超级详细入门经典
- (10412002)51单片机串口通信
- 石英管清洗机 氢氟酸适用(含工程图bomsw20可编辑)全套技术开发资料100%好用.zip
- (132417216)C++版本-贪吃蛇游戏
- 丢包测试小工具,可以长时间持续监控网络状态,并保存为带时间 戳的日志,方便运维分析
- (174151234)matlab矩阵位移法实现有限元求解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功