# CIKM-AnalytiCup-2018
#### 题目描述:
本次算法竞赛是以聊天机器人中最常见的文本匹配算法为目标,通过语言适应技术构建跨语言的短文本匹配模型。在本次竞赛中,源语言为英语,目标语言为西班牙语。参赛选手可以根据主办方提供的数据,设计模型结构判断两个问句语义是否相同。最终,我们将在目标语言上测试模型的性能。
#### 赛题详情:
https://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.29b27257inkYar&raceId=231661
#### 运行环境
* 操作系统: Windows7
* RAM: 16GB
* CPU: Intel(R) Core(TM) i7-4790K @ 4.00GHz
* 显卡:GTX970 4GB
* 语言:python3.6
* Python依赖工具:
1. Tensorflow-gpu == 1.8.0
2. scikit-learn == 0.19.1
3. numpy == 1.13.1
4. scipy == 1.0.0b1
5. gensim == 3.4.0
6. nltk == 3.2.5
7. tdqm == 4.20.0
8. xgboost == 0.7
9. lightgbm == 2.1.0
10. fuzzywuzzy == 0.16.0
11. networkx == 2.1
12. Levenshtein
13. pattern == '2.6'
#### 方案说明
* ./Preprocessing:
i.Preprocess.py 数据预处理,利用编辑距离和回退模型的思想处理OOB数据
ii.Tokenizer.py 文本清洗,词干提取
iii.WordDict.py 建立word到index的映射
iv.Feature.py 特征提取,主要包括word_tfidf、char_tfidf、lsa相似度、d2v相似度、average_w2v相似度、句子长度(比)、ngram_jaccard_dis、ngram_dice_dis、fuzzywuzzy模糊距离、公共自序列长度等
v.PowerfulWord.py powerful_words特征
vi.GraphFeature.py 图特征(该部分特征导致线上线下不一致,最终未采用)
vii.Postprocess.py 利用图提取的规则修正最终结果以及rescale(最终未采用)
viii.GoogleTranslation.py 调用Google翻译翻译西班牙语料(最终未使用)
* ./Model:
i.LexDecomp.py
implementation of the Answer Selection (AS) model proposed in the paper Sentence Similarity Learning by Lexical Decomposition and Composition, by (Wang et al., 2016).
论文地址:https://arxiv.org/pdf/1602.07019.pdf
ii. AB-CNN.py
论文地址:https://arxiv.org/pdf/1512.05193.pdf
iii.Xgboost.py Xgboost模型
iv.Embedding.py 获取Word2Vec及训练Doc2Vec
v.其他为父类或最终未采用的模型
* ./Config:
配置信息及部分工具
* ./Data:
原始数据
* ./Cache:
中间缓存文件
* ./Paper:
参考论文
* ./Output:
输出结果
* ./Save:
模型
#### 比赛成绩
* 第一阶段排名:14/1027
* 第二阶段排名:12/1027
#### 参考代码
https://github.com/qqgeogor/kaggle-quora-solution-8th
https://github.com/faneshion/MatchZoo
没有合适的资源?快使用搜索试试~ 我知道了~
CIKM AnalytiCup 2018 – 阿里小蜜机器人跨语言短文本匹配算法竞赛 – Rank12方案.zip
共61个文件
py:24个
pyc:12个
pdf:10个
需积分: 5 0 下载量 19 浏览量
2024-01-14
12:59:41
上传
评论
收藏 6.59MB ZIP 举报
温馨提示
Java是一种高性能、跨平台的面向对象编程语言。它由Sun Microsystems(现在是Oracle Corporation)的James Gosling等人在1995年推出,被设计为一种简单、健壮、可移植、多线程、动态的语言。Java的主要特点和优势包括以下几个方面: 跨平台性(Write Once, Run Anywhere): Java的代码可以在不同的平台上运行,只需编写一次代码,就可以在任何支持Java的设备上执行。这得益于Java虚拟机(JVM),它充当了代码和底层硬件之间的中介。 面向对象: Java是一种纯粹的面向对象编程语言,支持封装、继承和多态等面向对象的概念。这使得Java编写的代码更加模块化、可维护和可扩展。 多线程支持: Java内置了对多线程的支持,允许程序同时执行多个任务。这对于开发需要高并发性能的应用程序(如服务器端应用、网络应用等)非常重要。 自动内存管理(垃圾回收): Java具有自动内存管理机制,通过垃圾回收器自动回收不再使用的对象,使得开发者不需要手动管理内存,减轻了程序员的负担,同时也减少了内存泄漏的风险。
资源推荐
资源详情
资源评论
收起资源包目录
CIKM AnalytiCup 2018 – 阿里小蜜机器人跨语言短文本匹配算法竞赛 – Rank12方案.zip (61个子文件)
SJT-code
Paper
DSSM:LearningDeep Structured Semantic Models for WebSearchusing Click—through Data.pdf 860KB
Enhanced LSTM for Natural Language Inference.pdf 985KB
Text Matching as Image Recognition.pdf 1.07MB
Match—SRNN: Modeling the Recursive Matching Structure with Spatial RNN.pdf 512KB
Convolutional Neural Network for Paraphrase Identification.pdf 865KB
Adjusting the Outputs of a Classifier to New a Priori Probabilities A Simple Procedure.pdf 282KB
Sentence Similarity Learning by Lexical Decomposition and Composition.pdf 1.29MB
A Deep Relevance Matching Model for Ad-hoc Retrieval.pdf 439KB
A Decomposable Attention Model for Natural Language Inference.pdf 272KB
Dynamic Pooling and Unfolding Recursive.pdf 907KB
Preprocessing
Preprocess.py 26KB
Feature.py 47KB
Tokenizer.py 14KB
GraphFeature.py 14KB
PowerfulWord.py 8KB
WordDict.py 2KB
Postprocess.py 4KB
__pycache__
Preprocess.cpython-36.pyc 16KB
Tokenizer.cpython-36.pyc 11KB
WordDict.cpython-36.pyc 2KB
GraphFeature.cpython-36.pyc 11KB
PowerfulWord.cpython-36.pyc 8KB
Feature.cpython-36.pyc 39KB
GoogleTranslation.py 2KB
Output
3_cv_es_LexDecomp-submit_0.0009.txt 163KB
3_cv_es_LexDecomp-submit_0.001.txt 163KB
blending_0731.txt 160KB
es_ABCNN3-submit.txt 204KB
960_xgboost_human_feature-summit.txt 101KB
Picture
sentence_length.png 11KB
Model
Embeddings.py 5KB
lexdecomp.py 12KB
MatchPyramid.py 14KB
LightGbm.py 7KB
Blending.py 1KB
BaseMlModel.py 8KB
BaseDeepModel.py 17KB
FM_FTRL.py 3KB
Decom.py 11KB
Xgboost.py 5KB
__pycache__
BaseDeepModel.cpython-36.pyc 10KB
Embeddings.cpython-36.pyc 4KB
BaseMlModel.cpython-36.pyc 4KB
AB-CNN.py 14KB
ESIM.py 8KB
.idea
vcs.xml 180B
workspace.xml 49KB
misc.xml 265B
CIKM AnalytiCup 2018.iml 398B
modules.xml 292B
Config
utils.py 12KB
contractions.py 4KB
tool.py 4KB
__pycache__
tool.cpython-36.pyc 4KB
config.cpython-36.pyc 914B
utils.cpython-36.pyc 12KB
config.py 967B
Cache
特征检查.ipynb 220KB
.gitignore 1B
.ipynb_checkpoints
特征检查-checkpoint.ipynb 451KB
README.md 3KB
共 61 条
- 1
资源评论
JJJ69
- 粉丝: 6228
- 资源: 5778
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- com.Gaggle.fun.GooseGooseDuck.apk
- FastBrowser 基于CefSharp浏览器 Chromium内核 C#、WPF界面绘制, mp3、mp4播放
- apache-tomcat-8.5.100.tar.gz
- namehfyz1234
- 14727758_202405291911557049.csv.zip
- hfyzname1234
- 基于Java ME无线网络移动端的俄罗斯方块游戏的实现(源码+使用文档)
- 第九届上海市大学生网络安全大赛暨“磐石行动”2024第二届全国高校网络安全攻防活动 MISC wifi密码
- B07-GA503-2补充.zip
- 基于Java蚁群算法路由选择可视化(源码+使用文档)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功