yidu-s4k 医渡云结构化4K数据集
医渡云结构化4K数据集,简称"Yidu-S4K",是一个专为中文电子病历设计的命名实体识别(NER)和医疗实体及属性抽取的大型数据集。该数据集由医渡云公司提供,并在2019年的中国计算语言学大会(CCKS 2019)评测任务一中被广泛采用,旨在推动医疗信息处理领域的研究和应用。 在"面向中文电子病历的命名实体识别"这一任务中,Yidu-S4K数据集分为两个子任务。医疗命名实体识别(Medical NER)是识别电子病历文本中的关键信息,如疾病名、症状、药物、检查项目等。这需要模型能够理解医学术语并准确地定位和分类这些实体,这对于构建智能的医疗信息系统至关重要。数据集提供了标注好的训练和测试集,帮助模型学习和评估其在识别这些实体上的性能。 第二个子任务是医疗实体及属性抽取(Cross-hospital Entity and Attribute Extraction)。这是一个更具挑战性的任务,要求模型不仅要识别出医疗实体,还要理解它们之间的关系和属性,例如疾病的病因、病程、治疗方法等。这项任务的目的是实现医疗信息的跨机构迁移,即在不同医院之间共享和分析病例数据,以促进临床决策支持和医疗研究。 Yidu-S4K数据集包含多个文件,每一份都有特定的作用。例如,"CCKS2019任务1描述文件v2.docx"提供了详细的任务说明和评估标准,"subtask1_test_set_with_answer.json"包含了测试集的数据,带有答案,用于评估模型的性能。"subtask1_training_part1.txt"和"subtask1_training_part2.txt"是命名实体识别任务的训练数据,分为两部分,便于模型进行大规模学习。"subtask2_unlabeled.txt"可能包含未标注的数据,用于半监督或无监督学习。"readme-subtask1.txt"是对子任务一的额外说明,"subtask2_training_part1.xlsx"和"subtask2_training_part2.xlsx"以及"subtask2_test.xlsx"则是医疗实体及属性抽取任务的训练和测试数据,以Excel表格格式存储。 使用这个数据集,研究人员和开发者可以训练和优化深度学习模型,如条件随机场(CRF)、循环神经网络(RNN)或者更现代的Transformer架构,来处理医疗文本中的复杂信息。通过参与这样的评测任务,不仅可以提升模型的性能,也能推动整个医疗信息处理领域的发展,为实际的医疗应用带来更多的可能性,如辅助诊断、患者管理、科研数据分析等。
- 1
- 粉丝: 647
- 资源: 21
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助