# ccks2021-track3
CCKS2021中文NLP地址相关性任务-赛道三-冠军方案
团队:我的加菲鱼- wodejiafeiyu
初赛第二/复赛第一/决赛第一
## 前言
19年开始,陆陆续续参加了一些比赛,拿到过一些top,比较懒一直都没分享过,这次比较幸运又拿了top1,打算分享下
分类的任务用这个框架基本都能top10,之前个人参加的《全球人工智能大赛-赛道一》和这个也差不多,只是有些具体任务的trick不同
## 比赛主页
https://tianchi.aliyun.com/competition/entrance/531901/introduction
## 环境
* torch==1.6.0
* transformers=3.0.2
## 预训练模型
- nezha-base
- nezha-wwm
- macbert
* 下载预训练模型,放到文件夹user_data/model_param/pretrain_model_param/下,文件夹和模型名字一一对应
## 全流程脚本
```
sh run.sh
```
## 核心思路
* 预训练mlm中的mask策略使用ngram-mask,相比原始的动态mask,提升了预训练难度
* 标签也包含语义信息,预训练部分融入标签信息,提升预训练效果
* 混合精度预训练,损失一部分精度,提升整体的训练速度,实际测试结果精度损失不大,速度提升明显
* 对抗训练,已经是一个比较常用的trick了
* 后12层加上embedding的cls动态加权平均
* multi-sample dropout
* 推理的时候,阈值搜索
* 三折交叉验证,每折使用不同的随机数种子使用dynamic pad
* 加权平均,模型融合
## 总结
| 模块 | 提分点分析 | 提升 |
|------ |-----------------------------------------| ------- |
|ngram-mask |相比于单个字的遮蔽,ngram-mask加大了预训练任务的难度,从而提升效果| 2.6个千分点 |
|融入标签信息预训练|标签也含有语义信息,模型学习的更多| 1个千分点 |
|后12层加上embedding的cls动态加权平均+multi-sample dropout|加权平均能增强向量的语义表征能力从而提升效果。multi-sample dropout能加速训练,增强泛化能力| 3.3个千分点 |
| 对抗训练fgm |生成对抗样本,对抗样本的训练,增加模型泛化能力 | 2.2个千分点 |
| 多分类阈值搜索 | 缩放系数使得f1最优 | 0.7个千分点 |
| 模型融合 | 提升模型的鲁棒性和泛化能力 | 1.5个千分点 |
| 动态pad和预训练混合精度训练和每折使用不同的随机数种子 | 提升模型训练速度,不同的随机数种子加大了模型的差异,提升融合的效果 | |
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的竞赛项目学习资料,作为参考学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研,自行调试。 英特尔创新大师杯深度学习挑战赛赛道3-CCKS2021中文NLP地址相关性任务源码+项目说明.zip
资源推荐
资源详情
资源评论
收起资源包目录
英特尔创新大师杯深度学习挑战赛赛道3-CCKS2021中文NLP地址相关性任务源码+项目说明.zip (22个子文件)
code_20105
tcdata
Xeon3NLP_round1_test_20210524.txt 5.74MB
round1_train.txt 9.79MB
round2_train.txt 2.35MB
user_data
model_param
pretrain_model_param
nezha_base
README.md 60B
mac_bert
README.md 57B
nezha_wwm
README.md 59B
pretrained_model_param
README.md 27B
saved_model
README.md 26B
赛道三-我的加菲鱼.pptx 3.03MB
codem
inference
test.py 3KB
train
train.py 2KB
configm
config.py 1015B
utils
__init__.py 85B
models.py 8KB
kfold.py 2KB
datasets.py 5KB
tools.py 4KB
graph
utils.py 5KB
nezha_graph.py 45KB
bert_graph.py 2KB
run.sh 877B
README.md 3KB
共 22 条
- 1
资源评论
土豆片片
- 粉丝: 1557
- 资源: 5641
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功