# CIKM-AnalytiCup-2018
#### 题目描述:
本次算法竞赛是以聊天机器人中最常见的文本匹配算法为目标,通过语言适应技术构建跨语言的短文本匹配模型。在本次竞赛中,源语言为英语,目标语言为西班牙语。参赛选手可以根据主办方提供的数据,设计模型结构判断两个问句语义是否相同。最终,我们将在目标语言上测试模型的性能。
#### 赛题详情:
https://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.29b27257inkYar&raceId=231661
#### 运行环境
* 操作系统: Windows7
* RAM: 16GB
* CPU: Intel(R) Core(TM) i7-4790K @ 4.00GHz
* 显卡:GTX970 4GB
* 语言:python3.6
* Python依赖工具:
1. Tensorflow-gpu == 1.8.0
2. scikit-learn == 0.19.1
3. numpy == 1.13.1
4. scipy == 1.0.0b1
5. gensim == 3.4.0
6. nltk == 3.2.5
7. tdqm == 4.20.0
8. xgboost == 0.7
9. lightgbm == 2.1.0
10. fuzzywuzzy == 0.16.0
11. networkx == 2.1
12. Levenshtein
13. pattern == '2.6'
#### 方案说明
* ./Preprocessing:
i.Preprocess.py 数据预处理,利用编辑距离和回退模型的思想处理OOB数据
ii.Tokenizer.py 文本清洗,词干提取
iii.WordDict.py 建立word到index的映射
iv.Feature.py 特征提取,主要包括word_tfidf、char_tfidf、lsa相似度、d2v相似度、average_w2v相似度、句子长度(比)、ngram_jaccard_dis、ngram_dice_dis、fuzzywuzzy模糊距离、公共自序列长度等
v.PowerfulWord.py powerful_words特征
vi.GraphFeature.py 图特征(该部分特征导致线上线下不一致,最终未采用)
vii.Postprocess.py 利用图提取的规则修正最终结果以及rescale(最终未采用)
viii.GoogleTranslation.py 调用Google翻译翻译西班牙语料(最终未使用)
* ./Model:
i.LexDecomp.py
implementation of the Answer Selection (AS) model proposed in the paper Sentence Similarity Learning by Lexical Decomposition and Composition, by (Wang et al., 2016).
论文地址:https://arxiv.org/pdf/1602.07019.pdf
ii. AB-CNN.py
论文地址:https://arxiv.org/pdf/1512.05193.pdf
iii.Xgboost.py Xgboost模型
iv.Embedding.py 获取Word2Vec及训练Doc2Vec
v.其他为父类或最终未采用的模型
* ./Config:
配置信息及部分工具
* ./Data:
原始数据
* ./Cache:
中间缓存文件
* ./Paper:
参考论文
* ./Output:
输出结果
* ./Save:
模型
#### 比赛成绩
* 第一阶段排名:14/1027
* 第二阶段排名:12/1027
#### 参考代码
https://github.com/qqgeogor/kaggle-quora-solution-8th
https://github.com/faneshion/MatchZoo
没有合适的资源?快使用搜索试试~ 我知道了~
CIKM AnalytiCup 2018 – 阿里小蜜机器人跨语言短文本匹配算法竞赛 – Rank12方案.zip
共61个文件
py:24个
pyc:12个
pdf:10个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 186 浏览量
2023-12-01
15:55:57
上传
评论
收藏 6.59MB ZIP 举报
温馨提示
计算机类竞赛
资源推荐
资源详情
资源评论
收起资源包目录
CIKM AnalytiCup 2018 – 阿里小蜜机器人跨语言短文本匹配算法竞赛 – Rank12方案.zip (61个子文件)
Graduation Design
Paper
DSSM:LearningDeep Structured Semantic Models for WebSearchusing Click—through Data.pdf 860KB
Enhanced LSTM for Natural Language Inference.pdf 985KB
Text Matching as Image Recognition.pdf 1.07MB
Match—SRNN: Modeling the Recursive Matching Structure with Spatial RNN.pdf 512KB
Convolutional Neural Network for Paraphrase Identification.pdf 865KB
Adjusting the Outputs of a Classifier to New a Priori Probabilities A Simple Procedure.pdf 282KB
Sentence Similarity Learning by Lexical Decomposition and Composition.pdf 1.29MB
A Deep Relevance Matching Model for Ad-hoc Retrieval.pdf 439KB
A Decomposable Attention Model for Natural Language Inference.pdf 272KB
Dynamic Pooling and Unfolding Recursive.pdf 907KB
Preprocessing
Preprocess.py 26KB
Feature.py 47KB
Tokenizer.py 14KB
GraphFeature.py 14KB
PowerfulWord.py 8KB
WordDict.py 2KB
Postprocess.py 4KB
__pycache__
Preprocess.cpython-36.pyc 16KB
Tokenizer.cpython-36.pyc 11KB
WordDict.cpython-36.pyc 2KB
GraphFeature.cpython-36.pyc 11KB
PowerfulWord.cpython-36.pyc 8KB
Feature.cpython-36.pyc 39KB
GoogleTranslation.py 2KB
Output
3_cv_es_LexDecomp-submit_0.0009.txt 163KB
3_cv_es_LexDecomp-submit_0.001.txt 163KB
blending_0731.txt 160KB
es_ABCNN3-submit.txt 204KB
960_xgboost_human_feature-summit.txt 101KB
Picture
sentence_length.png 11KB
Model
Embeddings.py 5KB
lexdecomp.py 12KB
MatchPyramid.py 14KB
LightGbm.py 7KB
Blending.py 1KB
BaseMlModel.py 8KB
BaseDeepModel.py 17KB
FM_FTRL.py 3KB
Decom.py 11KB
Xgboost.py 5KB
__pycache__
BaseDeepModel.cpython-36.pyc 10KB
Embeddings.cpython-36.pyc 4KB
BaseMlModel.cpython-36.pyc 4KB
AB-CNN.py 14KB
ESIM.py 8KB
.idea
vcs.xml 180B
workspace.xml 49KB
misc.xml 265B
CIKM AnalytiCup 2018.iml 398B
modules.xml 292B
Config
utils.py 12KB
contractions.py 4KB
tool.py 4KB
__pycache__
tool.cpython-36.pyc 4KB
config.cpython-36.pyc 914B
utils.cpython-36.pyc 12KB
config.py 967B
Cache
特征检查.ipynb 220KB
.gitignore 1B
.ipynb_checkpoints
特征检查-checkpoint.ipynb 451KB
README.md 3KB
共 61 条
- 1
资源评论
学术菜鸟小晨
- 粉丝: 2w+
- 资源: 5745
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Matlab代码用于采用BFSK调制技术的数字通信.rar
- MATLAB代码用于频率调制(FM).rar
- Matlab代码用于快速傅里叶变换(FFT.rar
- MATLAB代码用于FSK调制和解调.rar
- MATLAB代码用于LDPC(低密度奇偶校验)码在AWGN信道上的仿真。.rar
- MATLAB代码用于M元QAM调制.rar
- Matlab带有CRO和频谱分析仪的函数发生器使用GUI.rar
- MATLAB函数用于解调并绘制任意BPSK调制波形.rar
- MATLAB函数用于系统性的(n,k)循环编码器和解码器.rar
- MATLAB脚本演示HDB3线路编码方案.rar
- MATLAB用于PWM调制和FM调制的界面指南.rar
- MATLAB实现的ECC图像配准(图像对齐)算法.rar
- Matlab展示了OFDM系统在AWGN信道下不同载波频率偏移(CFO)的误码率(BER)灵敏.rar
- MATLAB中的相移键控.rar
- MATLAB中频分多址的仿真.rar
- M-FSK表生成器Matlab代码.rar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功