该模型是一个基于字符的BiLSTM-CRF序列标注模型。
运行代码环境:Python 3 和TensorFlow 1.2
### 模型介绍
整个模型共分三层:
第一层:向量查找层。目的是将输入的字符汉字转化为对应的字符向量(采用的是one-hot方法)
第二层:双向LSTM。目的是有效地自动提取输入信息的特征。
第三层:CRF层。顶层使用CRF对句子中的字符打标签,完成标注。
![Network](./pic/network.png)
### 训练方法
输入如下命令,开始训练模型
`python main.py --mode train --dataset_name MSRA`
语料库选择,修改`--dataset_name`参数(CCKS17, CCKS18, MSRA, ResumeNER, WeiboNER,人民日报)
使用预训练的字向量,设置参数`--use_pre_emb true`,默认为false
备注:(增加了自动选择对应数据集tag的功能)
~~训练其他语料库的话,由于不同语料库的**实体类别**可能存在差异,需要修改`data.py`代码中的tag2label~~,
如果需要运行demo,还需要修改`utils.py`里的`get_entity()`系列方法
| CCKS2017医学实体类别 | 标签(BIO标记法) |
| ------ | ------ |
| 症状和体征 | B-SIGNS I-SIGNS |
| 检查和检验 | B-CHECK I-CHECK |
| 疾病和诊断 | B-DISEASE I-DISEASE|
| 治疗 | B-TREATMENT I-TREATMENT |
| 身体部位 | B-BODY I-BODY|
| CCKS2018医学实体类别 | 标签(BIO标记法) |
| ------ | ------ |
| 解剖部位 | B-ANATOMICSITE I-ANATOMICSITE |
| 症状描述 | B-SYMPTOMDES I-SYMPTOMDES |
| 独立症状 | B-INDEPSYMPTOM I-INDEPSYMPTOM|
| 药物 | B-DRUGS I-DRUGS |
| 手术 | B-OPERATION I-OPERATION|
| MSRA实体类别 | 标签(BIO标记法) |
| ------ | ------ |
| 人名 | B-PER I-PER |
| 地名 | B-LOC I-LOC |
| 机构名 | B-ORG I-ORG|
| 人民日报实体类别 | 标签(BIO标记法) |
| ------ | ------ |
| 人名 | B-PERSON I-PERSON |
| 普通地名 | B-LOC I-LOC |
| 行政区划地名 | B-GPE I-GPE |
| 机构名 | B-ORG I-ORG|
| 其他 | B-MISC I-MISC|
| WeiboNER实体类别 | 标签(BIO标记法) |
| ------ | ------ |
| 人名 | B-PER.NAM I-PER.NAM |
| 地名 | B-LOC.NAM I-LOC.NAM |
| 机构名 | B-ORG.NAM I-ORG.NAM|
| GPE-political | B-GPE.NAM I-GPE.NAM|
| 人名(nominal) | B-PER.NOM I-PER.NOM |
| 地名(nominal) | B-LOC.NOM I-LOC.NOM |
| 机构名(nominal) | B-ORG.NOM I-ORG.NOM|
| ResumeNER实体类别 | 标签(IOBES标记法) |
| ------ | ------ |
| 人名 | B-NAME M-NAME E-NAME、S-NAME |
| 民族/种族 | B-RACE M-RACE E-RACE、S-RACE |
| 国家 | B-CONT M-CONT E-CONT、S-CONT |
| 地名 | B-LOC M-LOC E-LOC、S-LOC|
| 专业 | B-PRO M-PRO E-PRO、S-PRO|
| 学历 | B-EDU M-EDU E-EDU、S-EDU|
| 职位 | B-TITLE M-TITLE E-TITLE、E-TITLE|
| 组织机构 | B-ORG M-ORG E-ORG 、S-ORG|
### 测试方法
输入如下命令完成测试集测试
`python main.py --mode test --dataset_name MSRA --demo_model 1583313347`
备注:训练过程中,每开始一次都会在“data_path_save/”目录下产生一个文件夹(以时间转换为整数来命名的),将训练的参数保存。
### 演示
在这里可以输入一段文本,查看识别结果。
运行命令如下;
`python main.py --mode demo --dataset_name MSRA --demo_model 1583313347`
运行程序后,会提示输入一段文本,输入后就可以看到通过该代码识别的结果。
没有合适的资源?快使用搜索试试~ 我知道了~
基于字符的BiLSTM-CRF序列标注模型(python源码+项目说明).zip
共45个文件
txt:14个
py:8个
pkl:3个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 182 浏览量
2024-03-06
16:03:23
上传
评论
收藏 27.94MB ZIP 举报
温馨提示
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末大作业和毕设项目,作为参考资料学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研,自行调试。 基于字符的BiLSTM-CRF序列标注模型(python源码+项目说明).zip基于字符的BiLSTM-CRF序列标注模型(python源码+项目说明).zip基于字符的BiLSTM-CRF序列标注模型(python源码+项目说明).zip基于字符的BiLSTM-CRF序列标注模型(python源码+项目说明).zip基于字符的BiLSTM-CRF序列标注模型(python源码+项目说明).zip基于字符的BiLSTM-CRF序列标注模型(python源码+项目说明).zip基于字符的BiLSTM-CRF序列标注模型(python源码+项目说明).zip基于字符的BiLSTM-CRF序列标注模型(python源码+项目说明).zip基于字符的BiLSTM-CRF序列标注模型(python源码+项目说明).zip基于字符的BiLST
资源推荐
资源详情
资源评论
收起资源包目录
基于字符的BiLSTM-CRF序列标注模型(python源码+项目说明).zip (45个子文件)
code_20105
BiLSTM_CRF.py 14KB
vectors.npy 5.44MB
utils.py 3KB
eval.py 864B
data_path
ResumeNER
dev_data.txt 117KB
test_data.txt 132KB
train_data.txt 1.04MB
radical
radical.txt 2.43MB
人民日报
dev_data.txt 2.16MB
test_data.txt 2.44MB
原始数据
dev_data.txt 941KB
test_data.txt 1.87MB
train_data.txt 8.07MB
word2id.pkl 72KB
train_data.txt 11.74MB
WeiboNER
dev_data.txt 88KB
test_data.txt 90KB
train_data.txt 442KB
CCKS17
vectors.npy 1.8MB
word2id.pkl 24KB
MSRA
word2id.pkl 73KB
main.py 8KB
radical.py 1KB
dataUtils.py 14KB
.idea
misc.xml 185B
modules.xml 278B
ChineseNER-TF.iml 398B
testt.py 17KB
conlleval_rev.pl 12KB
model_path
MSRA
1583313347
summaries
events.out.tfevents.1583313366.ai-C246-WU4 12.6MB
results
label_5 3.45MB
result_metric_5 369B
label_1 3.44MB
label_4 3.45MB
result_metric_3 369B
result_metric_test 369B
label_test 3.45MB
result_metric_1 369B
label_2 3.45MB
result_metric_2 369B
label_3 3.45MB
result_metric_4 369B
MSRAnot_use_pretrained_embeddings_log.txt 73KB
README.md 3KB
CNN_BiLSTM_CRF.py 19KB
共 45 条
- 1
资源评论
土豆片片
- 粉丝: 1529
- 资源: 5641
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功