# 新冠疫情相似句对判定大赛-TianChi
比赛链接为:https://tianchi.aliyun.com/competition/entrance/231776/introduction
## 比赛介绍
本次比赛达摩院联合医疗服务机构妙健康发布疫情相似句对判定任务。比赛整理近万条真实语境下疫情相关的肺炎、支原体肺炎、支气管炎、上呼吸道感染、肺结核、哮喘、胸膜炎、肺气肿、感冒、咳血等患者提问句对,要求选手通过自然语言处理技术识别相似的患者问题。
## 项目内容
作为自己在相似度匹配任务上的入门。从基本的双塔模型到bert的fintune,分步实现文本匹配的各种深度模型。
### 实现模型
- SiameseCNN
- SiameseRNN
- albert(bert4keras)[sentence pairs]
- SiameseBert
### 数据增强
根据`IF A=B and A=C THEN B=C`的规则,对正样本做了扩充增强。
### 特征工程
在SiameseNN中,构建了5种特征(即考虑多种距离测量的方式):
- query1,query2
- |query1 - query2|
- query1 \* query2
- max(query1,query2)^2
- category(OneHot表示)
### 模型结果(带补充)
## 项目结构
```bash
.
├── jupyter # 数据准备的notebook
│ ├── EDA.ipynb
│ ├── Augmentation.ipynb
│ ├── origin-data # 原始数据
│ ├── shuffle-data # 预处理并切分后数据
│ └── augment-data # 数据增强后数据
├── data_process # 数据加载模块
│ ├── __init__.py
│ ├── dnn_DataLoader.py
│ └── bert_DataLoader.py
├── model # 训练模型
│ ├── __init__.py
│ ├── 00-TFIDF_LR.ipynb
│ ├── basic_model.py # siamese模型的父类
│ ├── siamese_cnn.py
│ ├── siamese_rnn.py
│ └── bert.py
├── utils # 工具类
│ ├── __init__.py
│ ├── evaluate.py
│ └── logConfig.py ## Logging配置
├── w2v # w2v训练notebook
│ ├── train_w2v.ipynb
│ └── ...
├── logs # 用于存储训练过程的Log
│ └── ...
├── checkpoints # 用于存储训练的模型.h5
│ └── ...
├── bert-pretrained # 用于存储预训练的bert模型
│ └── ...
├── requirements.txt
├── Dockerfile
├── run_predict.py
├── run_train.py
├── run.sh
├── run_albert.sh
├── run_siameseCNN.sh
└── run_siameseRNN.sh
```
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末大作业和毕设项目,作为参考资料学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研,自行调试。 天池2020-新冠疫情相似句对判定大赛参赛源码+项目说明.zip
资源推荐
资源详情
资源评论
收起资源包目录
天池2020-新冠疫情相似句对判定大赛参赛源码+项目说明.zip (46个子文件)
code_20105
run_predict.py 2KB
tcdata
test.csv 59KB
utils
__init__.py 76B
evaluate.py 2KB
logConfig.py 1KB
bert_pretrained
albert_tiny_google_zh_489k
checkpoint 91B
albert_model.ckpt.data-00000-of-00001 31.06MB
albert_model.ckpt.index 1KB
vocab.txt 107KB
albert_config.json 458B
README.md 99B
run_siameseBert.sh 547B
jupyter
shuffle-data
train_data.csv 824KB
test_data.csv 56KB
dev_data.csv 132KB
Augmentation.ipynb 22KB
EDA.ipynb 53KB
augment-data
train_data.csv 1008KB
dev_data.csv 252KB
origin-data
dev.csv 189KB
test.example_20200228.csv 495B
train.csv 830KB
test.pred.example_20200228.csv 33B
Dockerfile 577B
run_siameseRNN.sh 506B
run_train.py 12KB
run_albert.sh 529B
run_siameseCNN.sh 487B
model
__init__.py 193B
basic_nn_model.py 3KB
00-TFIDF_LR.ipynb 3KB
siamese_bert.py 2KB
siamese_rnn.py 2KB
bert.py 965B
siamese_cnn.py 2KB
requirements.txt 113B
logs
README.md 30B
w2v
train_w2v.ipynb 7KB
checkpoints
README.md 27B
.gitignore 153B
run.sh 267B
README.md 2KB
data_process
dnn_DataLoader.py 4KB
__init__.py 51B
bert_DataLoader.py 2KB
siamesebert_DataLoader.py 2KB
共 46 条
- 1
资源评论
土豆片片
- 粉丝: 1567
- 资源: 5642
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- JSP基于WEB网上论坛设计与实现(源代码+lw+开题报告+答辩PPT+外文翻译).zip
- JSP基于WEB的图书馆借阅系统的设计与实现(源代码+lw).zip
- 数电实验三:74LS151逻辑功能测试、74LS153逻辑功能测试、74LS153全加器、三输入多数表决电路
- 基于python知识图谱抖音舆情数据可视化分析系统python + flask web + mysql + 知识图谱
- jsp基于Web的可维护的数据库浏览器(源代码+lw+答辩PPT).zip
- jsp基于WEB的考务管理系统的设计与实现(源代码+lw).zip
- jsp基于WEB操作系统课程教学网站的设计与实现(源代码+lw).zip
- 数据库课程实践在IDEA上使用java语言采用JDBC技术连接Mysql数据库,实现购物系统.zip
- JSP基于SSH2的网络在线问答系统.zip
- JSP基于Iptables图形管理工具的设计与实现(源代码+lw).zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功