面向中文电子病历的医疗实体识别及属性抽取
本任务是 CCKS 围绕中文电子病历语义化开展的系列评测的一个延续,在
CCKS 2017,2018 医疗命名实体识别评测任务的基础上进行了延伸和拓展。
包括两个子任务:1)医疗命名实体识别:由于国内没有公开可获得的面向
中文电子病历医疗实体识别数据集,本年度保留了医疗命名实体识别任务,对
2017 年度数据集做了修订,并随任务一同发布。2)医疗实体及属性抽取(跨
院迁移):在医疗实体识别的基础上,对预定义实体属性进行抽取。本任务为
迁移学习任务,即在只提供目标场景少量标注数据的情况下,通过其他场景的
标注数据及非标注数据进行目标场景的识别任务。
参赛队可同时选择两个子任务参赛,也可选择任一一个子任务单独参赛。
一、医疗命名实体识别
1. 任务定义及描述
对于给定的一组电子病历纯文本文档,任务的目标是识别并抽取出与医学
临床相关的实体提及(entity mention),并将它们归类到预定义类别(pre-
defined categories),比如疾病、治疗、检查检验等。
1.1 形式化定义
输入:
1.电子病历的自然语言文本
集合:
𝒟
=
{
𝑑
1
,⋯
𝑑
𝑁
}
,
𝑑
𝑖
=
〈
𝑤
𝑖1
,⋯
𝑤
𝑖𝑛
〉
2.预定义类别:
𝐶
=
{
𝑐
1
,⋯
𝑐
𝑚
}
输出:
实体提及和所属类别对的集合:
{
〈
𝑚
1
,
𝑐
𝑚
1
〉
,
〈
𝑚
2
,
𝑐
𝑚
2
〉
,⋯
〈
𝑚
𝑝
,
𝑐
𝑚
𝑝
〉
}
其中
𝑚
𝑖
=
〈
𝑑
𝑖
,
𝑏
𝑖
,
𝑒
𝑖
〉
是出现在
文档
d
𝑖
中的医疗实体提及(mention),
𝑏
𝑖
和
𝑒
𝑖
分
别表示
𝑚
𝑖
在
𝑑
𝑖
中的起止位置,
𝑐
𝑚
𝑖
∈
𝐶
表示所属的预定义类别。要求实体提及之
间不重叠,即
𝑒
𝑖
<
𝑏
𝑖
+
1
。
1.2 预定义类别
预定义类别定义如下: