2020阿里云天池大数据竞赛-中医药命名实体识别挑战赛参赛完整源码+说明.zip

共8个文件

md：6个

py：2个

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

项目源码

大学生竞赛

学习资料

0 下载量 121 浏览量 2024-03-31 10:54:55 上传评论收藏 10KB ZIP 举报

温馨提示

【资源说明】 1、该资源内项目代码都是经过测试运行成功，功能正常的情况下才上传的，请放心下载使用。 2、适用人群：主要针对计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、数学、电子信息等)的同学或企业员工下载使用，具有较高的学习借鉴价值。 3、不仅适合小白学习实战练习，也可作为大作业、课程设计、毕设项目、初期项目立项演示等，欢迎下载，互相学习，共同进步！

资源推荐

资源详情

资源评论

收起资源包目录

2020阿里云天池大数据竞赛-中医药命名实体识别挑战赛参赛源码+学习说明.zip （8个子文件）

code_30312

preprocess.py 7KB

ModelStorage

readme.md 35B

Submit

readme.md 25B

DataSet

train

readme.md 43B

test

readme.md 19B

RunLog

readme.md 31B

RoBERTa_MRC.py 21KB

README.md 1KB

共 8 条

# Tianchi2020ChineseMedicineNER 2020阿里云天池大数据竞赛-中医药命名实体识别挑战赛 * `初赛`: 0.7680, `排名`：35/1682(*single model*) * `复赛`: 0.7128, `排名`: 20/1682(*single model*) **核心思路**: 利用Machine Reading Comprehension的思路来解决NER问题(思路来源: ACL2020 A Unified MRC Framework for Named Entity Recognition) >> **数据处理**: preprocess.py, 构造(Query, Answer, Context)三元组, 对于较长文本, 采用滑动窗口法处理(等于将长文本拆分成多个短文本, 为了尽可能保持上下文连续性, 后面的每个短文本都会有一部分其前序文本的片段, 具体看构造流程) >> **模型训练**: RoBERTa + Finetune(MRC任务利用BERT解决的最基本的方法), 与参考的那篇论文相比, 我们模型去除了span loss, 因为加了span loss模型都无法训练. 同时我们也测试了focal loss, 但似乎效果并没有提升 >> **个人感悟**：玄学比赛(qaq), 复赛我的小伙伴用了很多方法, 但效果不增反降, 最佳的成绩居然还是我们初赛的baseline模型, 炼丹真奇妙

评论收藏

内容反馈

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉