# medical-entity-recognition
## Describe
本项目是针对医疗数据,进行命名实体识别。主要采用的方法:
1. 基于条件随机场(Condition Random Fields, CRF)的命名实体识别.
2. 基于双向长短时记忆神经网络和条件随机场(Bi-LSTM-CRF)的命名实体识别。
## Introduce
1. raw_data是原始数据,来源于[CCKS2017](http://www.ccks2017.com/en/index.php/sharedtask/)任务二中,针对医疗电子病例进行命名实体识别。reader.py文件是对原始数据进行处理,生成标准的NER格式(data, pos, label)的数据。
2. train_test_data是模型的训练和测试的语料,其中word2id.pkl和char2id.pkl是神经网络中需要读入的字典。
3. crf文件夹是使用CRF进行命名实体识别的模型,其中medical_entity_recognition_bio_char_ori.crfsuite和medical_entity_recognition_bio_word_ori.crfsuite分别是训练好的,以字为特征单元和词为特征单元的模型。
4. bilstm_crf文件夹中是基于神经网络的命名实体识别的模型。其中,bio_model下存放的是已经训练好的两个模型。分别是随机初始化embedding的字向量和词向量的模型。其中:
- 训练新的模型方法:
> python main.py --mode train --data_dir *** --train_data *** --test_data *** --dictionary ***
- 测试已有模型方法:
> python main.py --mode test --data_dir ../train_test_data --train_data train_bio_char.txt --test_data test_bio_char.txt --dictionary char2id.pkl --demo_model random_char_300
## Requirements
python 3
pycrfsuite:pip install python-crfsuite
zhon:pip install zhon
tensorflow >= 1.4
## Result
分别以字和词为单元进行训练,实验结果如下:
|model|char_unit|word_unit|
|:------:|:-----:|:-----:|
|CRF|0.73|0.74|
|Bi-LSTM_CRF|0.80|0.78|
## Reference
[guillaumegenthial/sequence_tagging](https://github.com/guillaumegenthial/sequence_tagging)
## Other
欢迎各位大佬,批评指正
没有合适的资源?快使用搜索试试~ 我知道了~
包含传统的基于统计模型(CRF)和基于深度学习(Embedding-Bi-LSTM-CRF)下的医疗数据命名实体识别.zip
共156个文件
txt:106个
index:10个
data-00000-of-00001:10个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 170 浏览量
2024-05-22
19:01:59
上传
评论
收藏 233.92MB ZIP 举报
温馨提示
包含传统的基于统计模型(CRF)和基于深度学习(Embedding-Bi-LSTM-CRF)下的医疗数据命名实体识别LSTM (Long Short-Term Memory) 是一种特殊的循环神经网络(RNN)架构,用于处理具有长期依赖关系的序列数据。传统的RNN在处理长序列时往往会遇到梯度消失或梯度爆炸的问题,导致无法有效地捕捉长期依赖。LSTM通过引入门控机制(Gating Mechanism)和记忆单元(Memory Cell)来克服这些问题。 以下是LSTM的基本结构和主要组件: 记忆单元(Memory Cell):记忆单元是LSTM的核心,用于存储长期信息。它像一个传送带一样,在整个链上运行,只有一些小的线性交互。信息很容易地在其上保持不变。 输入门(Input Gate):输入门决定了哪些新的信息会被加入到记忆单元中。它由当前时刻的输入和上一时刻的隐藏状态共同决定。 遗忘门(Forget Gate):遗忘门决定了哪些信息会从记忆单元中被丢弃或遗忘。它也由当前时刻的输入和上一时刻的隐藏状态共同决定。 输出门(Output Gate):输出门决定了哪些信息会从记忆单元中输出到当前时刻的隐藏状态中。同样地,它也由当前时刻的输入和上一时刻的隐藏状态共同决定。 LSTM的计算过程可以大致描述为: 通过遗忘门决定从记忆单元中丢弃哪些信息。 通过输入门决定哪些新的信息会被加入到记忆单元中。 更新记忆单元的状态。 通过输出门决定哪些信息会从记忆单元中输出到当前时刻的隐藏状态中。 由于LSTM能够有效地处理长期依赖关系,它在许多序列建模任务中都取得了很好的效果,如语音识别、文本生成、机器翻译、时序预测等。
资源推荐
资源详情
资源评论
收起资源包目录
包含传统的基于统计模型(CRF)和基于深度学习(Embedding-Bi-LSTM-CRF)下的医疗数据命名实体识别.zip (156个子文件)
checkpoint 241B
checkpoint 241B
medical_entity_recognition_bio_char_ori.crfsuite 1.15MB
medical_entity_recognition_bio_word_ori.crfsuite 1.02MB
model-4000.data-00000-of-00001 23.58MB
model-3960.data-00000-of-00001 23.58MB
model-3880.data-00000-of-00001 23.58MB
model-3840.data-00000-of-00001 23.58MB
model-3920.data-00000-of-00001 23.58MB
model-4268.data-00000-of-00001 20.87MB
model-4224.data-00000-of-00001 20.87MB
model-4400.data-00000-of-00001 20.87MB
model-4356.data-00000-of-00001 20.87MB
model-4312.data-00000-of-00001 20.87MB
events.out.tfevents.1522554654.evsho 5.9MB
events.out.tfevents.1522573674.evsho 4.11MB
.gitignore 36B
model-3920.index 1KB
model-3960.index 1KB
model-3880.index 1KB
model-3840.index 1KB
model-4000.index 1KB
model-4400.index 1KB
model-4224.index 1KB
model-4356.index 1KB
model-4268.index 1KB
model-4312.index 1KB
label_test 1.05MB
LICENSE 11KB
README.md 2KB
model-3960.meta 2.9MB
model-3840.meta 2.9MB
model-3920.meta 2.9MB
model-4000.meta 2.9MB
model-3880.meta 2.9MB
model-4400.meta 2MB
model-4224.meta 2MB
model-4356.meta 2MB
model-4268.meta 2MB
model-4312.meta 2MB
word2id.pkl 36KB
char2id.pkl 18KB
model.py 15KB
reader.py 13KB
main.py 8KB
data.py 6KB
crf_unit.py 6KB
predata.py 4KB
utils.py 2KB
result_metric_test 589B
train_bio_char.txt 4.79MB
train_bio_word.txt 4.23MB
test_bio_char.txt 485KB
test_bio_word.txt 432KB
log.txt 61KB
log.txt 53KB
病史特点-81.txt 7KB
病史特点-41.txt 7KB
病史特点-4.txt 6KB
病史特点-22.txt 6KB
病史特点-12.txt 6KB
病史特点-50.txt 5KB
病史特点-25.txt 5KB
病史特点-49.txt 5KB
病史特点-78.txt 5KB
病史特点-72.txt 5KB
病史特点-86.txt 5KB
病史特点-19.txt 5KB
病史特点-85.txt 5KB
病史特点-24.txt 5KB
病史特点-73.txt 5KB
病史特点-79.txt 5KB
病史特点-40.txt 5KB
病史特点-80.txt 5KB
病史特点-43.txt 5KB
病史特点-100.txt 4KB
病史特点-59.txt 4KB
病史特点-84.txt 4KB
病史特点-87.txt 4KB
病史特点-96.txt 4KB
病史特点-98.txt 4KB
病史特点-44.txt 4KB
病史特点-65.txt 4KB
病史特点-89.txt 4KB
病史特点-69.txt 4KB
病史特点-45.txt 4KB
病史特点-29.txt 4KB
病史特点-77.txt 4KB
病史特点-97.txt 4KB
病史特点-52.txt 4KB
病史特点-58.txt 4KB
病史特点-26.txt 3KB
病史特点-64.txt 3KB
病史特点-57.txt 3KB
病史特点-61.txt 3KB
病史特点-76.txt 3KB
病史特点-38.txt 3KB
病史特点-92.txt 3KB
病史特点-63.txt 3KB
病史特点-46.txt 3KB
共 156 条
- 1
- 2
资源评论
生瓜蛋子
- 粉丝: 3828
- 资源: 5775
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功