# Tianchi2020ChineseMedicineQuestionGeneration
2020 阿里云天池大数据竞赛-中医药文献问题生成挑战赛
官网链接: https://tianchi.aliyun.com/competition/entrance/531826/introduction
`初赛成绩`: 0.6133(11/868) `复赛成绩`: 0.6215(8/868=>复赛代码审核后为第6)
**均为single model**
包含数据集的完整项目文件百度盘链接: `https://pan.baidu.com/s/1crAYwtDLrGnkls9xdfQdQg` 提取码:`qagl`
(备注:网盘链接不稳定, 有可能会被百度误封, 如需完整数据文件, 可私信[email protected])
模型整体思路: 预训练语言模型(RoBERTa_wwm_ext_large)作为编码器, Transformer-XL作为解码器(train from scratch),使用其他阅读理解数据集进行预学习,再在比赛数据集上进行微调
整体流程:
> 1. 数据预处理:python preprocess.py生成multi-task.pkl
> 2. 在DuReader数据集上粗粒度的预学习nohup python -u MultiTaskXLIR-DuReader train gpu-0 & (自行设置batch-size和gpu数量)
> 3. 在DRCD和CMRC2018数据集上细粒度的预学习nohup python -u MultiTaskXLIR-DRMC train gpu-0 &
> 4. 在比赛数据集上进行学习nohup python -u MultiTaskXLIR-Final train gpu-0 final &
> 5. 使用beam_search生成测试集结果python MultiTaskXLIR-Final test gpu-0
没有合适的资源?快使用搜索试试~ 我知道了~
2020 阿里云天池大数据竞赛-中医药文献问题生成挑战赛.zip
共12个文件
py:7个
md:4个
json:1个
需积分: 5 0 下载量 52 浏览量
2024-01-14
12:58:30
上传
评论
收藏 916KB ZIP 举报
温馨提示
Java是一种高性能、跨平台的面向对象编程语言。它由Sun Microsystems(现在是Oracle Corporation)的James Gosling等人在1995年推出,被设计为一种简单、健壮、可移植、多线程、动态的语言。Java的主要特点和优势包括以下几个方面: 跨平台性(Write Once, Run Anywhere): Java的代码可以在不同的平台上运行,只需编写一次代码,就可以在任何支持Java的设备上执行。这得益于Java虚拟机(JVM),它充当了代码和底层硬件之间的中介。 面向对象: Java是一种纯粹的面向对象编程语言,支持封装、继承和多态等面向对象的概念。这使得Java编写的代码更加模块化、可维护和可扩展。 多线程支持: Java内置了对多线程的支持,允许程序同时执行多个任务。这对于开发需要高并发性能的应用程序(如服务器端应用、网络应用等)非常重要。 自动内存管理(垃圾回收): Java具有自动内存管理机制,通过垃圾回收器自动回收不再使用的对象,使得开发者不需要手动管理内存,减轻了程序员的负担,同时也减少了内存泄漏的风险。
资源推荐
资源详情
资源评论
收起资源包目录
2020 阿里云天池大数据竞赛-中医药文献问题生成挑战赛.zip (12个子文件)
SJT-code
zh_wiki.py 148KB
preprocess.py 4KB
ModelStorage
readme.md 70B
langconv.py 8KB
MultiTaskXLIR-DRMC.py 21KB
DataSet
readme.md 22B
RunLog
readme.md 13B
submit.json 2.67MB
GRUIRMoS.py 23KB
MultiTaskXLIR-DuReader.py 23KB
MultiTaskXLIR-Final.py 35KB
README.md 1KB
共 12 条
- 1
资源评论
JJJ69
- 粉丝: 6222
- 资源: 5780
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功