# Tianchi2020ChineseMedicineQuestionGeneration
2020 阿里云天池大数据竞赛-中医药文献问题生成挑战赛
官网链接: https://tianchi.aliyun.com/competition/entrance/531826/introduction
`初赛成绩`: 0.6133(11/868) `复赛成绩`: 0.6215(8/868=>复赛代码审核后为第6)
**均为single model**
包含数据集的完整项目文件百度盘链接: `https://pan.baidu.com/s/1crAYwtDLrGnkls9xdfQdQg` 提取码:`qagl`
(备注:网盘链接不稳定, 有可能会被百度误封, 如需完整数据文件, 可私信anlin781205936@126.com)
模型整体思路: 预训练语言模型(RoBERTa_wwm_ext_large)作为编码器, Transformer-XL作为解码器(train from scratch),使用其他阅读理解数据集进行预学习,再在比赛数据集上进行微调
整体流程:
> 1. 数据预处理:python preprocess.py生成multi-task.pkl
> 2. 在DuReader数据集上粗粒度的预学习nohup python -u MultiTaskXLIR-DuReader train gpu-0 & (自行设置batch-size和gpu数量)
> 3. 在DRCD和CMRC2018数据集上细粒度的预学习nohup python -u MultiTaskXLIR-DRMC train gpu-0 &
> 4. 在比赛数据集上进行学习nohup python -u MultiTaskXLIR-Final train gpu-0 final &
> 5. 使用beam_search生成测试集结果python MultiTaskXLIR-Final test gpu-0
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的竞赛项目学习资料,作为参考学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研,自行调试。 2020阿里云天池大数据竞赛-中医药文献问题生成挑战赛源码+学习说明.zip
资源推荐
资源详情
资源评论
收起资源包目录
2020阿里云天池大数据竞赛-中医药文献问题生成挑战赛源码+学习说明.zip (12个子文件)
code_20105
zh_wiki.py 148KB
preprocess.py 4KB
ModelStorage
readme.md 70B
langconv.py 8KB
MultiTaskXLIR-DRMC.py 21KB
DataSet
readme.md 22B
RunLog
readme.md 13B
submit.json 2.67MB
GRUIRMoS.py 23KB
MultiTaskXLIR-DuReader.py 23KB
MultiTaskXLIR-Final.py 35KB
README.md 1KB
共 12 条
- 1
资源评论
土豆片片
- 粉丝: 1527
- 资源: 5641
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 采用P-f和Q-V滞控的去中心化逆变器型交流微电网的模拟(Simulink仿真实现)
- 彩虹聚合二级域名DNS管理系统源码v1.3
- 【TOF相机笔记3】Simulink使用方法
- 算法部署-基于C++和Python使用ONNXRuntime部署RT-DETR目标检测算法-附项目源码-优质项目实战.zip
- Bitree.cpp
- 改变浏览器大小,图片(img)内容居中显示
- 全景分割-基于FAIR-DETR对Cityscapes数据集进行微调实现全景分割-附项目源码-优质项目实战.zip
- Tru master.m4a
- 基于ELMAN神经网络的用气量预测,基于ELMAN的天然气消费量预测(代码完整,数据齐全)
- 基于Vue3+ThreeJS实现机械臂控制和预览+源码+开发文档+代码解析(高分优秀项目)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功