# 达观比赛代码总结
大二暑假,和实验室的几个小伙伴一起参加2018“达观杯”文本智能处理挑战赛
# Task description
Create a model to predict the category of text by long text data
</br> More details see [达观 2018](http://www.dcjingsai.com/common/cmpt/%E2%80%9C%E8%BE%BE%E8%A7%82%E6%9D%AF%E2%80%9D%E6%96%87%E6%9C%AC%E6%99%BA%E8%83%BD%E5%A4%84%E7%90%86%E6%8C%91%E6%88%98%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html?slxydc=2881bc)
## 1.Requirements
* python
* keras
* gensim
* scikit-learn
* pickle
* numpy
* pandas
* tensorflow-gpu
## 2.Data preprocessing
* Word/char vector training uses the word2vec package. Training word vectors and char vectors are used for all word text and char text in the training set and test set, respectively, and the vector dimension is set to 200 dimensions.
* The word text has a truncation length of 2000 , the article text truncation length is also 2000.
* More details see **./my_utils**
* you can run it:
> sh clean_data.sh
## 3.Model
* We mainly used 12 models in this competition.Due to the time limit of this competition, we have not done enough for the model combination of words and char.In test dataset, we only adopt a simple but efficient voting mechanism for ensembling.
>The best model is **word_fea_c_gru.py**
| | model |Description |
| ------------ | ------------ | ------------ |
|1|word_char_cnn| ./train/word_char_cnn.py |
|2|word_char_rcnn| ./train/word_char_rcnn.py |
|3|word_char_capsule_gru| ./train/word_char_capsule_gru.py |
|4|word_char_c_gru| ./train/word_char_c_gru.py |
|5|word_dpcnn_gru| ./train/word_dpcnn_gru.py |
|6|word_conv_lstm| ./train/word_conv_lstm.py |
|7|word_rcnn_Triples| ./train/word_rcnn_Triples.py |
|8|word_rcnn| ./train/word_rcnn.py |
|9|word_rnn_att| ./train/word_rnn_att.py |
|10|word_fea_c_gru| ./train/word_fea_c_gru.py |
|11|word_fea_cnn| ./train/word_fea_cnn.py |
|12|word_fea_dpcnn| ./train/word_fea_dpcnn.py |
More models' details see: [xuxuanbo's keras model ](https://github.com/xuxuanbo/keras_learning)
## 4.Feature engineering
* In this competition, we tried to use the method of lexical clustering to extract the features of the article. Its principle is that related words constitute a potential topic.We tried several dimensionality reduction methods,such as lsi,lda,pca,nmf..We put the extracted text features into the **nn** to compensate for its shortcomings.
</br> It seems useful _(:△」∠)_
* More details see: [Terence's feature engineering](https://github.com/TerenceLiu2/MLpack)
# Acknowledgment
</br> Thanks for all the efforts of my teammates
</br> If you like this blog, welcome to click on the **star** and **fork** , thank you!
没有合适的资源?快使用搜索试试~ 我知道了~
大二暑假参加的“达观杯”文本智能处理挑战赛总结(top 35).zip
共29个文件
py:26个
sh:1个
move_data_here:1个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 175 浏览量
2023-11-09
01:19:11
上传
评论
收藏 48KB ZIP 举报
温馨提示
挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考 挑战杯大赛相关代码、设计文档、使用说明,供参考
资源推荐
资源详情
资源评论
收起资源包目录
大二暑假参加的“达观杯”文本智能处理挑战赛总结(top 35).zip (29个子文件)
daguan_classify-master
evaluate
test_predict.py 1KB
train
word_rnn_att.py 3KB
deep_cnn.py 3KB
word_char_c_gru.py 5KB
word_char_capsule_gru.py 5KB
word_char_rcnn.py 5KB
word_c_gru.py 3KB
word_fea_dpcnn.py 3KB
fea_nn_cat.py 5KB
word_dpcnn_gru.py 3KB
word_char_cnn.py 5KB
word_conv_lstm.py 3KB
word_fea_c_gru.py 6KB
word_rcnn.py 3KB
word_rcnn_Triples.py 3KB
word_fea_cnn.py 6KB
my_utils
resave_word_embeddings.py 2KB
metrics.py 389B
process_data_new.py 3KB
clean_data.sh 132B
train_char_embeddings.py 3KB
build_new_train_text_data.py 2KB
data_preprocess.py 3KB
model
Attention.py 2KB
deepzoo.py 66KB
keras_util.py 15KB
Capsule.py 3KB
README.md 3KB
new_data
move_data_here 0B
共 29 条
- 1
资源评论
辣椒种子
- 粉丝: 3549
- 资源: 5720
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功