# LSTM-CRF-medical
构建医疗实体识别的模型,包含词典和语料标注,基于python构建
数据集合标注
数据集合标注可以基于词典,通过最大匹配获得实体位置,然后标注实体类型。
词典构造
目前构造的词典包括疾病词典、症状词典和身体部位词典。疾病词典包括互联网爬取的疾病名称、疾病别名、ICD10疾病名称,去重后共39615条数据;症状为互联网爬取的症状描述,去重后共7457条数据;身体部位为互联网爬取的身体部位描述,去重后共1929条数据。示例如下:
疾病名称:1型糖尿病性急性牙周脓肿,妊娠合并系统性红斑狼疮,结石性胆囊炎,药物性股骨坏死,晚期梅毒性脉络膜炎,腹型过敏性紫癜
症状:胀痛,耳后长包,睡觉流口水,鼻塞,粉红色泡沫样痰,孕妇气喘,痔疮便血,头昏眼花
身体部位:鼻唇沟,鼻处,鼻子,鼻子尖,鼻孔,鼻尖,鼻窦软骨,鼻翼,鼻黏膜
实体检索
选取了ICD10中的5000条疾病描述,根据已有词典进行实体的最大匹配。
以疾病为例,对于输入的疾病描述进行规范化,去掉空格、换行符,去掉无意义的句头和句尾字词等。
对规范化的句子,使用词典中的每个词进行全匹配,记录匹配的词、词的起始index、词的结束index和实体类型。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
这些项目以Python语言为基础,是一系列多样化的系统。无论是学业预警、自主评测,还是电影推荐、二维码识别,或者是数据加密、信息隐藏,这些项目充分利用了Python语言的优势,为用户提供了高效、灵活的解决方案。 Python语言作为一种高级编程语言,具有简洁、可读性强的特点,使得开发者可以更加专注于解决问题的逻辑。同时,Python拥有丰富的开源库和框架,如Django、Flask、OpenCV等,为项目开发提供了强大的支持。 这些项目的开发旨在为用户提供便捷、智能的服务和功能。Python语言具备广泛的应用领域,从机器学习、自然语言处理,到图像处理、数据可视化,Python在各个领域都有良好的应用场景。同时,Python的生态系统也在不断扩展和发展,拥有丰富的第三方库和工具。 通过Python语言的支持,这些项目可以实现多样化的功能需求,如数据分析、图像处理、网络安全等。同时,Python的简洁性和易读性,使得项目的开发、测试和维护更加高效和方便。 总之,这些项目利用Python语言的优势和多样化特性,为各个领域的应用和研究提供了强大的解决方案。无论是学校学业预警、电影推荐,还是数据加密、图像识别,这些项目都能够高效、灵活地满足用户需求,为用户提供优质的体验。
资源推荐
资源详情
资源评论
收起资源包目录
python172医疗问句中的实体识别算法的研究_flask.zip (380个子文件)
all_data 13.38MB
auth 113B
cypher-shell.bat 2KB
neo4j.bat 1KB
neo4j-import.bat 1023B
neo4j-shell.bat 1022B
neo4j-admin.bat 1022B
neo4j.cert 1002B
neo4j.conf 10KB
bootstrap.min.css 115KB
layui.css 68KB
font-awesome.min.css 30KB
templatemo-style.css 16KB
layer.css 14KB
layui.mobile.css 10KB
login.css 8KB
laydate.css 7KB
code.css 1KB
style.css 991B
diseaseMatch.csv 5.07MB
symptomMatch.csv 773KB
disease.dic 1.09MB
disease_new.dic 880KB
disease_new2.dic 879KB
symptom.dic 329KB
symptom_new.dic 149KB
symptom_new2.dic 129KB
body中文身体部位名称.dic 15KB
disonly 20KB
python医疗问句中的实体识别算法的研究-开题报告.doc 54KB
python医疗问句中的实体识别算法的研究.docx 1.18MB
文档.docx 12KB
fontawesome-webfont.eot 162KB
iconfont.eot 40KB
err 2KB
prunsrv-amd64.exe 107KB
prunsrv-i386.exe 85KB
59.gif 10KB
22.gif 10KB
24.gif 8KB
13.gif 7KB
16.gif 7KB
39.gif 6KB
64.gif 6KB
63.gif 6KB
50.gif 6KB
loading-0.gif 6KB
4.gif 6KB
1.gif 5KB
42.gif 5KB
71.gif 5KB
21.gif 5KB
20.gif 5KB
29.gif 5KB
70.gif 4KB
5.gif 4KB
17.gif 4KB
27.gif 4KB
9.gif 4KB
44.gif 4KB
11.gif 4KB
8.gif 4KB
3.gif 4KB
23.gif 4KB
34.gif 4KB
41.gif 4KB
38.gif 4KB
65.gif 3KB
32.gif 3KB
45.gif 3KB
7.gif 3KB
12.gif 3KB
26.gif 3KB
60.gif 3KB
2.gif 3KB
40.gif 3KB
25.gif 3KB
19.gif 3KB
66.gif 3KB
18.gif 3KB
46.gif 3KB
10.gif 3KB
28.gif 3KB
51.gif 3KB
57.gif 3KB
67.gif 3KB
0.gif 3KB
48.gif 3KB
43.gif 3KB
30.gif 2KB
61.gif 2KB
33.gif 2KB
69.gif 2KB
14.gif 2KB
47.gif 2KB
36.gif 2KB
49.gif 2KB
58.gif 2KB
6.gif 2KB
54.gif 2KB
共 380 条
- 1
- 2
- 3
- 4
资源评论
Java码库
- 粉丝: 2180
- 资源: 6175
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C#ASP.NET中小企业仓库管理系统源码数据库 SQL2008源码类型 WebForm
- 智能消除笔_20241116_001.jpg
- 提取文字_20241116.docx
- 使用 PyTorch /TensorFlow实现 ZFNet 进行 MNIST 图像分类
- Python课程设计之俄罗斯方块
- C#仓库条码管理系统源码数据库 SQL2008源码类型 WinForm
- 网安面试题合集-来自网络收集.zip
- (2024最新整理)42万+世界各国新冠疫情数据(2020.1-2024.8)
- ESP32开发板(CH340驱动芯片) Type-C口+数据线+0.96显示屏+杜邦线 链接wifi,显示当前时间
- windows hex查看工具
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功