# CIKM-AnalytiCup-2018
#### 题目描述:
本次算法竞赛是以聊天机器人中最常见的文本匹配算法为目标,通过语言适应技术构建跨语言的短文本匹配模型。在本次竞赛中,源语言为英语,目标语言为西班牙语。参赛选手可以根据主办方提供的数据,设计模型结构判断两个问句语义是否相同。最终,我们将在目标语言上测试模型的性能。
#### 赛题详情:
https://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.29b27257inkYar&raceId=231661
#### 运行环境
* 操作系统: Windows7
* RAM: 16GB
* CPU: Intel(R) Core(TM) i7-4790K @ 4.00GHz
* 显卡:GTX970 4GB
* 语言:python3.6
* Python依赖工具:
1. Tensorflow-gpu == 1.8.0
2. scikit-learn == 0.19.1
3. numpy == 1.13.1
4. scipy == 1.0.0b1
5. gensim == 3.4.0
6. nltk == 3.2.5
7. tdqm == 4.20.0
8. xgboost == 0.7
9. lightgbm == 2.1.0
10. fuzzywuzzy == 0.16.0
11. networkx == 2.1
12. Levenshtein
13. pattern == '2.6'
#### 方案说明
* ./Preprocessing:
i.Preprocess.py 数据预处理,利用编辑距离和回退模型的思想处理OOB数据
ii.Tokenizer.py 文本清洗,词干提取
iii.WordDict.py 建立word到index的映射
iv.Feature.py 特征提取,主要包括word_tfidf、char_tfidf、lsa相似度、d2v相似度、average_w2v相似度、句子长度(比)、ngram_jaccard_dis、ngram_dice_dis、fuzzywuzzy模糊距离、公共自序列长度等
v.PowerfulWord.py powerful_words特征
vi.GraphFeature.py 图特征(该部分特征导致线上线下不一致,最终未采用)
vii.Postprocess.py 利用图提取的规则修正最终结果以及rescale(最终未采用)
viii.GoogleTranslation.py 调用Google翻译翻译西班牙语料(最终未使用)
* ./Model:
i.LexDecomp.py
implementation of the Answer Selection (AS) model proposed in the paper Sentence Similarity Learning by Lexical Decomposition and Composition, by (Wang et al., 2016).
论文地址:https://arxiv.org/pdf/1602.07019.pdf
ii. AB-CNN.py
论文地址:https://arxiv.org/pdf/1512.05193.pdf
iii.Xgboost.py Xgboost模型
iv.Embedding.py 获取Word2Vec及训练Doc2Vec
v.其他为父类或最终未采用的模型
* ./Config:
配置信息及部分工具
* ./Data:
原始数据
* ./Cache:
中间缓存文件
* ./Paper:
参考论文
* ./Output:
输出结果
* ./Save:
模型
#### 比赛成绩
* 第一阶段排名:14/1027
* 第二阶段排名:12/1027
#### 参考代码
https://github.com/qqgeogor/kaggle-quora-solution-8th
https://github.com/faneshion/MatchZoo
没有合适的资源?快使用搜索试试~ 我知道了~
CIKM AnalytiCup 2018 – 阿里小蜜机器人跨语言短文本匹配算法竞赛 – Rank12方案.zip
共61个文件
py:24个
pyc:12个
pdf:10个
需积分: 0 1 下载量 54 浏览量
2024-02-11
11:22:52
上传
评论 1
收藏 6.59MB ZIP 举报
温馨提示
【项目资源】: 包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。 包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】: 适用于希望学习不同技术领域的小白或进阶学习者。 可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】: 项目具有较高的学习借鉴价值,也可直接拿来修改复刻。 对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】: 有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 鼓励下载和使用,并欢迎大家互相学习,共同进步。
资源推荐
资源详情
资源评论
收起资源包目录
CIKM AnalytiCup 2018 – 阿里小蜜机器人跨语言短文本匹配算法竞赛 – Rank12方案.zip (61个子文件)
资料总结
Paper
DSSM:LearningDeep Structured Semantic Models for WebSearchusing Click—through Data.pdf 860KB
Enhanced LSTM for Natural Language Inference.pdf 985KB
Text Matching as Image Recognition.pdf 1.07MB
Match—SRNN: Modeling the Recursive Matching Structure with Spatial RNN.pdf 512KB
Convolutional Neural Network for Paraphrase Identification.pdf 865KB
Adjusting the Outputs of a Classifier to New a Priori Probabilities A Simple Procedure.pdf 282KB
Sentence Similarity Learning by Lexical Decomposition and Composition.pdf 1.29MB
A Deep Relevance Matching Model for Ad-hoc Retrieval.pdf 439KB
A Decomposable Attention Model for Natural Language Inference.pdf 272KB
Dynamic Pooling and Unfolding Recursive.pdf 907KB
Preprocessing
Preprocess.py 26KB
Feature.py 47KB
Tokenizer.py 14KB
GraphFeature.py 14KB
PowerfulWord.py 8KB
WordDict.py 2KB
Postprocess.py 4KB
__pycache__
Preprocess.cpython-36.pyc 16KB
Tokenizer.cpython-36.pyc 11KB
WordDict.cpython-36.pyc 2KB
GraphFeature.cpython-36.pyc 11KB
PowerfulWord.cpython-36.pyc 8KB
Feature.cpython-36.pyc 39KB
GoogleTranslation.py 2KB
Output
3_cv_es_LexDecomp-submit_0.0009.txt 163KB
3_cv_es_LexDecomp-submit_0.001.txt 163KB
blending_0731.txt 160KB
es_ABCNN3-submit.txt 204KB
960_xgboost_human_feature-summit.txt 101KB
Picture
sentence_length.png 11KB
Model
Embeddings.py 5KB
lexdecomp.py 12KB
MatchPyramid.py 14KB
LightGbm.py 7KB
Blending.py 1KB
BaseMlModel.py 8KB
BaseDeepModel.py 17KB
FM_FTRL.py 3KB
Decom.py 11KB
Xgboost.py 5KB
__pycache__
BaseDeepModel.cpython-36.pyc 10KB
Embeddings.cpython-36.pyc 4KB
BaseMlModel.cpython-36.pyc 4KB
AB-CNN.py 14KB
ESIM.py 8KB
.idea
vcs.xml 180B
workspace.xml 49KB
misc.xml 265B
CIKM AnalytiCup 2018.iml 398B
modules.xml 292B
Config
utils.py 12KB
contractions.py 4KB
tool.py 4KB
__pycache__
tool.cpython-36.pyc 4KB
config.cpython-36.pyc 914B
utils.cpython-36.pyc 12KB
config.py 967B
Cache
特征检查.ipynb 220KB
.gitignore 1B
.ipynb_checkpoints
特征检查-checkpoint.ipynb 451KB
README.md 3KB
共 61 条
- 1
资源评论
妄北y
- 粉丝: 1w+
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Screenshot_20240509_034911_com.tencent.mtt.jpg
- 基于python实现的医学影像体脂分割+源代码+文档说明(课程设计)
- 基于python实现的医学影像(MIR, CT )图像分割源码+文档说明(高分课程设计)
- 基于python+JavaScript实现的医学影像分割+源代码+文档说明+截图演示+数据(高分毕业设计)
- 基于U-net+pytorch实现的医学影像分割python源码+文档说明+数据+界面截图+博客介绍
- 课程设计-基于Pytorch实现MNIST数据集的手写数字识别源码+数据(Gui界面)+文档说明+模型
- 软件开发国家标准.xls
- pytorch-CNN-SBATM-ubuntudemo
- matplotlibdemo
- pytorch-CNN-dht11温湿度传感器笔记
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功