# “万创杯”中医药天池大数据竞赛——中医文献问题生成挑战 决赛 第一名方案
wodejiafeiyu|nano- nano- 康一帅
## 简介
### 环境
* `Tensorflow` == 1.14.0
* `Keras` == 2.3.1
* `bert4keras` == 0.8.8
### 文件说明
* `EDA`:用于探索性数据分析。
* `code/train.py`:用于模型的训练。
* `code/infer.py`:用于模型的推断(预测)。
* `code/utils.py`:工具函数。
* `data`:数据目录。
## 赛题背景分析及理解
* 赛题是中医药领域的问题生成挑战,而问题生成属于NLG中重要的一种应用。
* 问题生成任务需要我们根据篇章及对应的答案自动生成相应的问题,即`“篇章+答案→问题”`这样的流程。
* 训练集由三个字段(篇章、问题、答案)构成,测试集由两个字段(篇章、答案)构成,其中的问题字段需要我们生成。
* 根据以上分析,我们可以采用Seq2Seq模型来端到端地实现问题生成,而模型的输入为篇章和答案,输出为问题。
![enter image description here](https://tianchi-public.oss-cn-hangzhou.aliyuncs.com/public/files/forum/160974756757971461609747565968.png)
## 数据探索分析
### 文本长度分布
* 篇章文本长度在100以下的数据较少,长度区间400-500的数据占比较大。
![enter image description here](https://tianchi-public.oss-cn-hangzhou.aliyuncs.com/public/files/forum/160974763308865151609747631562.png)
* 问题文本长度主要集中在5-20这个区间,长度40以上的数据较少。
![enter image description here](https://tianchi-public.oss-cn-hangzhou.aliyuncs.com/public/files/forum/160974765280298401609747651299.png)
* 答案文本长度主要集中在1-100区间,长度200以上的数据较少。
![enter image description here](https://tianchi-public.oss-cn-hangzhou.aliyuncs.com/public/files/forum/160974766368849381609747662177.png)
### 分析总结
* 训练数据量适中,不是很大数据量,但是也不算少。
* 文本长度:篇章文本最大,其次是答案文本,最后是问题文本。
* 如果只看答案文本,那它的长度分布应该是同分布。
* 若要将篇章、问题和答案拼接进行训练,则需要对其进行文本截断;
* 问题是要预测的部分,并且长度不是太长,所以可以不进行截断;
* 答案是从篇章中截取的,可以适当截取短一点;
* 篇章在硬件资源允许的范围内,可以尽量截取长一点。
## 核心思路
* 数据预处理:数据清洗(剔除空白字符、剔除带括号的英文),处理部分不匹配数据(绝大部分答案是从篇章中截取的,不匹配数据指答案在篇章中无法完全匹配到的数据);
* 文本截断:思路是篇章中答案所在位置的附近与问题的相关性最强,答案的前面部分信息最多,问题文本最长131个字符。具体操作是篇章取答案所在位置的前64个字符和后128个字符;答案取前64个字符;问题取前131个字符。
* 数据输入:训练时按照“[CLS]篇章[SEP]答案[SEP]问题[SEP]”格式输入。推断时按照“[CLS]篇章[SEP]答案[SEP]”格式输入。如图1所示。
* 模型架构:使用“NEZHA + UniLM”的方式来构建一个Seq2Seq模型,端到端地实现“篇章 + 答案 → 问题”。如图2所示。
![enter image description here](https://tianchi-public.oss-cn-hangzhou.aliyuncs.com/public/files/forum/160974781051139941609747808105.png)
* 缓解Exposure Bias问题的策略:1.通过随机替换Decoder的输入词来构造“有代表性”的负样本;2.使用对抗训练来生成扰动样本。
* 解码:使用Beam search来对问题进行解码。
* 解决显存不足的方法:由于显存有限,无法使用较大的batch size进行训练,梯度累积优化器可以使用小的batch size实现大batch size的效果——只要你愿意花n倍的时间,可以达到n倍batch size的效果,而不需要增加显存。
* 其他Trick:
* 在单模型(NEZHA-Large-WWM)上使用5折交叉验证。
* 对词表进行精简(因为总的tokens大概有2万个,这意味着最后预测生成的token时是一个2万分类问题,但事实上有接近一半的tokens都不会分出来,因此这2万分类浪费了一些计算量)。
* EarlyStopping。
* 伪标签。
## 经验总结
* 文本截断策略使得文本能够在满足预训练模型输入的要求下,较少的损失上下文信息,提分效果显著。使用该文本截断策略之前,一直无法提升至0.6+。
* nezha-large-wwm预训练模型是我们队试过效果是最好的模型,单个的nezha-large-wwm加上之前的技巧就能达到0.64+。nezha-base、nezha-base-wwm和wobert在该任务上效果相差不多,大约0.63+,roberta-wwm-large-ext、bert-wwm-ext大约0.62+。
* 使用随机替换和对抗训练能够缓解Exposure Bias,使用这两个trick后效果提升也比较明显,大约有百分之二提升。
* 不使用交叉验证,不划分验证集的情况下,使用全部训练数据进行训练,大约第12个epoch效果最好。使用交叉验证后效果会优于全量训练的结果,缺点是训练推断时间太长。
* 伪标签是一个比较常用的trick,在该生成任务上,使用伪标签有细微的提升,大约万分之二左右。
* 梯度累积使得能够用较大的batch size训练large模型,分数上也有细微的提升。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
教育部认可的大学生竞赛备赛资料代码,源码,竞赛总结,所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通 全国电子设计大赛、全国大学生智能汽车竞赛、蓝桥杯、集成电路创新创业大赛、光电设计竞赛、挑战杯、大创项目、互联网+、三创赛、计算机设计竞赛、创新创业大赛、ACM-ICPC国际大学生程序设计竞赛、全国大学生数学建模竞赛、全国大学生电子商务“创新、创意及创业”挑战赛、全国大学生节能减排社会实践与科技竞赛、全国大学生工程训练综合能力竞赛、全国大学生机器人大赛-RoboMaster、RoboCon、“西门子杯”中国智能制造挑战赛、中国大学生计算机设计大赛、世界技能大赛、中国高校计算机大赛-大数据挑战赛、团体程序设计天梯赛、移动应用创新赛、网络技术挑战赛、全国大学生信息安全竞赛、“中国软件杯”大学生软件设计大赛、全国大学生光电设计竞赛、中国机器人及人工智能大赛、“大唐杯”全国大学生移动通信5G技术大赛、华为ICT大赛、全国大学生嵌入式芯片与系统设计竞赛、中国高校智能机器人创意大赛
资源推荐
资源详情
资源评论
收起资源包目录
“万创杯”中医药天池大数据竞赛——中医文献问题生成挑战 决赛 第一名方案.zip (16个子文件)
资料总结
data
round1_train_0907.json 10.33MB
round1_test_0907.json 2.27MB
万创杯决赛答辩PPT.pptx 7.13MB
.idea
CHINESE-MEDICINE-QUESTION-GENERATION.iml 485B
vcs.xml 180B
misc.xml 287B
inspectionProfiles
profiles_settings.xml 174B
modules.xml 324B
deployment.xml 912B
.gitignore 38B
EDA.ipynb 108KB
README.md 5KB
code
utils.py 1KB
__init__.py 0B
infer.py 5KB
train.py 11KB
共 16 条
- 1
资源评论
妄北y
- 粉丝: 1w+
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- python-leetcode面试题解之第198题打家劫舍-题解.zip
- python-leetcode面试题解之第191题位1的个数-题解.zip
- python-leetcode面试题解之第186题反转字符串中的单词II-题解.zip
- 一个基于python的web后端高性能开发框架,下载可用
- python-leetcode面试题解之第179题最大数-题解.zip
- python-leetcode面试题解之第170题两数之和III数据结构设计-题解.zip
- python-leetcode面试题解之第168题Excel表列名称-题解.zip
- python-leetcode面试题解之第167题两数之和II输入有序数组-题解.zip
- python-leetcode面试题解之第166题分数到小数-题解.zip
- python-leetcode面试题解之第165比较版本号-题解.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功