# LSTM-CRF-medical
构建医疗实体识别的模型,包含词典和语料标注,基于python构建
数据集合标注
数据集合标注可以基于词典,通过最大匹配获得实体位置,然后标注实体类型。
词典构造
目前构造的词典包括疾病词典、症状词典和身体部位词典。疾病词典包括互联网爬取的疾病名称、疾病别名、ICD10疾病名称,去重后共39615条数据;症状为互联网爬取的症状描述,去重后共7457条数据;身体部位为互联网爬取的身体部位描述,去重后共1929条数据。示例如下:
疾病名称:1型糖尿病性急性牙周脓肿,妊娠合并系统性红斑狼疮,结石性胆囊炎,药物性股骨坏死,晚期梅毒性脉络膜炎,腹型过敏性紫癜
症状:胀痛,耳后长包,睡觉流口水,鼻塞,粉红色泡沫样痰,孕妇气喘,痔疮便血,头昏眼花
身体部位:鼻唇沟,鼻处,鼻子,鼻子尖,鼻孔,鼻尖,鼻窦软骨,鼻翼,鼻黏膜
实体检索
选取了ICD10中的5000条疾病描述,根据已有词典进行实体的最大匹配。
以疾病为例,对于输入的疾病描述进行规范化,去掉空格、换行符,去掉无意义的句头和句尾字词等。
对规范化的句子,使用词典中的每个词进行全匹配,记录匹配的词、词的起始index、词的结束index和实体类型。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
基于python+Jupyter构建医疗实体识别的模型,包含词典和语料标注+源码+文档,适合期末大作业、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用~ 项目简介: 构建医疗实体识别的模型,包含词典和语料标注,基于python构建 数据集合标注 数据集合标注可以基于词典,通过最大匹配获得实体位置,然后标注实体类型。 词典构造 目前构造的词典包括疾病词典、症状词典和身体部位词典。疾病词典包括互联网爬取的疾病名称、疾病别名、ICD10疾病名称,去重后共39615条数据;症状为互联网爬取的症状描述,去重后共7457条数据;身体部位为互联网爬取的身体部位描述,去重后共1929条数据。示例如下: 疾病名称:1型糖尿病性急性牙周脓肿,妊娠合并系统性红斑狼疮,结石性胆囊炎,药物性股骨坏死,晚期梅毒性脉络膜炎,腹型过敏性紫癜 症状:胀痛,耳后长包,睡觉流口水,鼻塞,粉红色泡沫样痰,孕妇气喘,痔疮便血,头昏眼花 身体部位:鼻唇沟,鼻处,鼻子,鼻子尖,鼻孔,鼻尖,鼻窦软骨,鼻翼,鼻黏膜
资源推荐
资源详情
资源评论
收起资源包目录
基于python+Jupyter构建医疗实体识别的模型,包含词典和语料标注+源码+文档(期末大作业&课程设计&项目开发) (147个子文件)
all_data 13.38MB
checkpoint 240B
checkpoint 199B
checkpoint 75B
events.out.tfevents.1516702505.idap-agent-207.idap.com 11.62MB
events.out.tfevents.1516252191.idap-agent-207.idap.com 11.06MB
events.out.tfevents.1516245559.idap-agent-207.idap.com 11.03MB
events.out.tfevents.1516780487.idap-agent-207.idap.com 10.92MB
events.out.tfevents.1516777872.idap-agent-207.idap.com 10.9MB
events.out.tfevents.1516769879.idap-agent-207.idap.com 10.9MB
events.out.tfevents.1516776828.idap-agent-207.idap.com 10.9MB
events.out.tfevents.1516765131.idap-agent-207.idap.com 10.9MB
events.out.tfevents.1516703072.idap-agent-207.idap.com 10.89MB
events.out.tfevents.1516703139.idap-agent-207.idap.com 10.89MB
events.out.tfevents.1516702986.idap-agent-207.idap.com 10.89MB
events.out.tfevents.1516776622.idap-agent-207.idap.com 10.89MB
events.out.tfevents.1516774276.idap-agent-207.idap.com 10.89MB
events.out.tfevents.1516765941.idap-agent-207.idap.com 10.89MB
events.out.tfevents.1516702907.idap-agent-207.idap.com 10.89MB
diseaseMatch.csv 5.07MB
symptomMatch.csv 773KB
model-1584.data-00000-of-00001 31.22MB
model-3168.data-00000-of-00001 31.22MB
model-792.data-00000-of-00001 31.22MB
model-2376.data-00000-of-00001 31.22MB
model-1584.data-00000-of-00001 31.22MB
model-3168.data-00000-of-00001 31.22MB
model-2376.data-00000-of-00001 31.22MB
model-3960.data-00000-of-00001 31.22MB
model-792.data-00000-of-00001 31.22MB
model-520.data-00000-of-00001 31.22MB
disease.dic 1.09MB
disease_new.dic 880KB
disease_new2.dic 879KB
symptom.dic 329KB
symptom_new.dic 149KB
symptom_new2.dic 129KB
body中文身体部位名称.dic 15KB
disonly 20KB
err 2KB
model-2376.index 1KB
model-792.index 1KB
model-3168.index 1KB
model-1584.index 1KB
model-2376.index 1KB
model-3960.index 1KB
model-792.index 1KB
model-3168.index 1KB
model-1584.index 1KB
model-520.index 1KB
dataSpiderAnalysis-checkpoint.ipynb 472KB
main.ipynb 140KB
dataSpiderAnalysis.ipynb 19KB
model.ipynb 16KB
model-checkpoint.ipynb 16KB
SogouScel2TXT.ipynb 12KB
main-checkpoint.ipynb 12KB
doPrepareTrainSets-checkpoint.ipynb 11KB
doPrepareTrainSets.ipynb 11KB
SogouScel2TXT-checkpoint.ipynb 72B
label_1 62KB
label_1 59KB
label_1 59KB
label_2 59KB
label_2 59KB
label_3 59KB
label_3 59KB
label_4 59KB
label_5 59KB
README.md 1KB
model-2376.meta 5.48MB
model-792.meta 5.48MB
model-1584.meta 5.48MB
model-3168.meta 5.48MB
model-792.meta 5.48MB
model-3960.meta 5.48MB
model-2376.meta 5.48MB
model-3168.meta 5.48MB
model-1584.meta 5.48MB
model-520.meta 5.48MB
ner_train_data 13.38MB
ner_train_data_dis 11.53MB
ner_train_data_sym 1.85MB
word2id.pkl 66KB
word_voabulary.pkl 53KB
word_voabulary.pkl 0B
conlleval_rev.pl 12KB
model.py 12KB
main.py 7KB
data.py 4KB
utils.py 3KB
eval.py 776B
model.cpython-35.pyc 11KB
data.cpython-35.pyc 4KB
utils.cpython-35.pyc 3KB
eval.cpython-35.pyc 1005B
diseaseAll.res 18.12MB
symptomAll.res 6.34MB
diseaseMatch.res 5.07MB
symptomMatch.res 773KB
共 147 条
- 1
- 2
资源评论
梦回阑珊
- 粉丝: 2998
- 资源: 855
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 谷歌浏览器自动化测试版113.0.5672.0(包含linux,windows32/64,mac三个版本,不会自动更新)
- uniapp中tab切换,底部内容跟着移动,相反,底部移动,tab也跟着切换-组件
- 基于JS+TS实现跨平台3D相机控制器-附项目源码-优质项目分享.zip
- 跨相机-基于Rust实现的跨平台相机捕获-附项目源码-优质项目分享.zip
- odise 14离线安装包 大众斯柯达奥迪 5054 6153
- 网页设计期末作业-纯html加css+少量js-盗墓笔记旅游导航网站.rar
- 算法笔记模拟退火.rar
- MATLAB大数据仿真案例-蚁群算法(ACO)用于求解旅行商(TSP)问题.rar
- 基于yolov5的吸烟行为检测源码+模型.zip
- MySQL基础知识-个人笔记.rar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功