# LSTM-CRF-medical
构建医疗实体识别的模型,包含词典和语料标注,基于python构建
数据集合标注
数据集合标注可以基于词典,通过最大匹配获得实体位置,然后标注实体类型。
词典构造
目前构造的词典包括疾病词典、症状词典和身体部位词典。疾病词典包括互联网爬取的疾病名称、疾病别名、ICD10疾病名称,去重后共39615条数据;症状为互联网爬取的症状描述,去重后共7457条数据;身体部位为互联网爬取的身体部位描述,去重后共1929条数据。示例如下:
疾病名称:1型糖尿病性急性牙周脓肿,妊娠合并系统性红斑狼疮,结石性胆囊炎,药物性股骨坏死,晚期梅毒性脉络膜炎,腹型过敏性紫癜
症状:胀痛,耳后长包,睡觉流口水,鼻塞,粉红色泡沫样痰,孕妇气喘,痔疮便血,头昏眼花
身体部位:鼻唇沟,鼻处,鼻子,鼻子尖,鼻孔,鼻尖,鼻窦软骨,鼻翼,鼻黏膜
实体检索
选取了ICD10中的5000条疾病描述,根据已有词典进行实体的最大匹配。
以疾病为例,对于输入的疾病描述进行规范化,去掉空格、换行符,去掉无意义的句头和句尾字词等。
对规范化的句子,使用词典中的每个词进行全匹配,记录匹配的词、词的起始index、词的结束index和实体类型。
学习资源网
- 粉丝: 940
- 资源: 2101
最新资源
- 基于Django+Yolov8+Tensorflow的智能鸟类识别平台
- 风光储直流微电网Simulink仿真模型:光伏发电、风力发电与储能系统的协同运作及并网技术参考,风光储、风光储并网直流微电网simulink仿真模型 系统有光伏发电系统、风力发电系统、储能系统、负载
- 基于java+ssm+mysql的题库管理系统 源码+数据库+论文(高分毕设项目).zip
- Python自动化办公源码-04快速提取一串字符中的中文
- 基于java+ssm+mysql的数学竞赛网站 源码+数据库+论文(高分毕设项目).zip
- 基于java+ssm+mysql的淘乐乐员工购物商城 源码+数据库+论文(高分毕设项目).zip
- 基于Matlab2021a的双端VSC-HVDC直流输电仿真模型:双环控制下的电压电流调节与波形输出效果分析,双端VSC-HVDC直流输电仿真模型 matlab2021a,采用双环控制, 电压环和电流
- 基于java+ssm+mysql的图书管理系统 源码+数据库+论文(高分毕设项目).zip
- 基于java+ssm+mysql的网络类课程思政学习系统 源码+数据库+论文(高分毕设项目).zip
- 基于java+ssm+mysql的图书管理系统 源码+数据库+论文(高分毕设项目)2.zip
- 基于java+ssm+mysql的微博网站 源码+数据库+论文(高分毕设项目).zip
- 基于java+ssm+mysql的网上茶叶销售平台 源码+数据库+论文(高分毕设项目).zip
- 基于java+ssm+mysql的网上商城 源码+数据库+论文(高分毕设项目).zip
- Python自动化办公源码-05在Excel表格中将上下行相同内容的单元格自动合并
- 222226201201_石阳_数据库应用大作业.zip
- 基于java+ssm+mysql的小码创客教育教学资源库系统 源码+数据库+论文(高分毕设项目).zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈