中文实体识别ner数据集（包含原始数据和经过处理后的数据）.zip

共2000个文件

txt：1533个

ann：451个

xml：5个

版权申诉

课程大作业

课程设计

毕业设计

项目源码

80 浏览量 2024-03-24 14:01:39 上传评论收藏 20.26MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

中文实体识别ner数据集（包含原始数据和经过处理后的数据）.zip （2000个子文件）

15.ann 2KB

17.ann 2KB

270.ann 2KB

18.ann 2KB

94.ann 2KB

457.ann 2KB

124.ann 2KB

0.ann 2KB

234.ann 2KB

491.ann 2KB

364.ann 2KB

347.ann 2KB

302.ann 2KB

336.ann 2KB

150.ann 1KB

580.ann 1KB

223.ann 1KB

677.ann 1KB

378.ann 1KB

50.ann 1KB

95.ann 1KB

605.ann 1KB

229.ann 1KB

204.ann 1KB

190.ann 1KB

92.ann 1KB

624.ann 1KB

518.ann 1KB

409.ann 1KB

79.ann 1KB

137.ann 1KB

151.ann 1KB

16.ann 1KB

913.ann 1KB

222.ann 1KB

460.ann 1KB

902.ann 1KB

572.ann 1KB

1.ann 1KB

349.ann 1KB

161.ann 1KB

211.ann 1KB

896.ann 1KB

556.ann 1KB

131.ann 1KB

376.ann 1KB

146.ann 1KB

236.ann 1KB

383.ann 1KB

168.ann 1020B

63.ann 1015B

389.ann 1006B

358.ann 997B

935.ann 968B

599.ann 967B

997.ann 962B

448.ann 951B

868.ann 949B

999.ann 948B

401.ann 941B

602.ann 940B

986.ann 940B

165.ann 929B

574.ann 918B

694.ann 916B

699.ann 913B

309.ann 913B

799.ann 912B

365.ann 909B

621.ann 900B

405.ann 895B

720.ann 892B

83.ann 891B

608.ann 866B

510.ann 865B

306.ann 857B

58.ann 853B

858.ann 850B

797.ann 849B

593.ann 842B

101.ann 840B

271.ann 835B

697.ann 827B

342.ann 820B

371.ann 817B

176.ann 816B

93.ann 812B

459.ann 804B

225.ann 801B

690.ann 799B

233.ann 797B

157.ann 797B

622.ann 796B

654.ann 791B

177.ann 787B

631.ann 787B

352.ann 782B

400.ann 780B

431.ann 779B

943.ann 776B

共 2000 条

面向中文电子病历的医疗实体识别及属性抽取

本任务是 CCKS 围绕中文电子病历语义化开展的系列评测的一个延续，在

CCKS 2017，2018 医疗命名实体识别评测任务的基础上进行了延伸和拓展。

包括两个子任务：1）医疗命名实体识别：由于国内没有公开可获得的面向

中文电子病历医疗实体识别数据集，本年度保留了医疗命名实体识别任务，对

2017 年度数据集做了修订，并随任务一同发布。2）医疗实体及属性抽取（跨

院迁移）：在医疗实体识别的基础上，对预定义实体属性进行抽取。本任务为

迁移学习任务，即在只提供目标场景少量标注数据的情况下，通过其他场景的

标注数据及非标注数据进行目标场景的识别任务。

参赛队可同时选择两个子任务参赛，也可选择任一一个子任务单独参赛。

一、医疗命名实体识别

1. 任务定义及描述

对于给定的一组电子病历纯文本文档，任务的目标是识别并抽取出与医学

临床相关的实体提及（entity mention），并将它们归类到预定义类别（pre-

defined categories），比如疾病、治疗、检查检验等。

1.1 形式化定义

输入：

1.电子病历的自然语言文本

集合：

𝒟

{

𝑑

,⋯

𝑑

𝑁

}

𝑑

𝑖

〈

𝑤

𝑖1

,⋯

𝑤

𝑖𝑛

〉

2.预定义类别：

𝐶

{

𝑐

,⋯

𝑐

𝑚

}

输出：

实体提及和所属类别对的集合：

{

〈

𝑚

𝑐

𝑚

〉

〈

𝑚

𝑐

𝑚

〉

,⋯

〈

𝑚

𝑝

𝑐

𝑚

𝑝

〉

}

其中

𝑚

𝑖

〈

𝑑

𝑖

𝑏

𝑖

𝑒

𝑖

〉

是出现在

文档

𝑖

中的医疗实体提及（mention），

𝑏

𝑖

和

𝑒

𝑖

分

别表示

𝑚

𝑖

在

𝑑

𝑖

中的起止位置，

𝑐

𝑚

𝑖

∈

𝐶

表示所属的预定义类别。要求实体提及之

间不重叠，即

𝑒

𝑖

𝑏

𝑖

。

1.2 预定义类别

预定义类别定义如下：

评论收藏

内容反馈

版权申诉

龙年行大运

粉丝: 1003
资源: 3854

中文实体识别ner数据集（包含原始数据和经过处理后的数据）.zip

自然语言处理数据集（NLP）-中文命名实体识别数据集.rar

NER中文命名实体识别数据集

中文命名实体识别语料

自然语言处理数据集-5 万多条中文命名实体识别标注数据-中文命名实体识别.rar

中文命名实体识别ner数据_resume_bio格式

基于W2NER模型实现命名实体识别python源码+实验报告+数据.zip

BIO 命名实体识别 NER语料集.rar

NER（命名实体识别）训练数据集.7z

MSRA-NER 中文命名实体识别

MSRA（NER）.zip

人工智能NER作业-基于BiLSTM+CRF实现命名实体识别python源码+数据+实验报告.zip

人工智能NER作业-基于CRF实现命名实体识别python源码+数据+实验报告.zip

Chinese-Literature-NER-RE-Dataset-master.zip_ner_中文命名实体识别_命名实体_命

ner.tgz实体命名序列标注数据集

ner-corpora, Europeana报纸命名实体识别数据.zip

中文实体关系抽取数据集 Chinese-Literature-NER-RE-Dataset

ner-lstm, 基于多层双向LSTM的命名实体识别.zip

农业领域数据集.zip

基于四份区域地质调查报告构建的命名实体识别试验数据集NERdata.txt

实体识别数据集：用于命名实体识别（NER）和实体识别任务的语料库集合。 这些带注释的数据集涵盖多种语言，域和实体类型

ResumeNER_resume_命名实体识别_ner_

34个经典javaweb项目实例.zip

毕业设计 springBoot人力资源管理系统+毕业论文+前后端源代码

项目源码：基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计

毕业设计：舆情监测系统（SpringBoot+NLP）

基于spring boot的小区物业管理系统源码+论文+答辩ppt

计算机毕业设计：Flask股票数据采集分析可视化系统 python+爬虫+金融数据

毕业设计 基于javaweb的在线答题平台

毕业设计-基于JAVA的springboot超市进销存系统(源代码+论文）

最新资源

实体识别数据集：用于命名实体识别（NER）和实体识别任务的语料库集合。这些带注释的数据集涵盖多种语言，域和实体类型

项目源码：基于Hadoop+Spark招聘推荐可视化系统大数据项目计算机毕业设计

毕业设计基于javaweb的在线答题平台