该模型是一个基于字符的BiLSTM-CRF序列标注模型。
运行代码环境:Python 3 和TensorFlow 1.2
### 模型介绍
整个模型共分三层:
第一层:向量查找层。目的是将输入的字符汉字转化为对应的字符向量(采用的是one-hot方法)
第二层:双向LSTM。目的是有效地自动提取输入信息的特征。
第三层:CRF层。顶层使用CRF对句子中的字符打标签,完成标注。
![Network](./pic/network.png)
### 训练方法
输入如下命令,开始训练模型
`python main.py --mode train --dataset_name MSRA`
语料库选择,修改`--dataset_name`参数(MSRA, ResumeNER, WeiboNER,人民日报)
使用预训练的字向量,设置参数`--use_pre_emb true`,默认为false
备注:(增加了自动选择对应数据集tag的功能)
~~训练其他语料库的话,由于不同语料库的**实体类别**可能存在差异,需要修改`data.py`代码中的tag2label~~,
如果需要运行demo,还需要修改`utils.py`里的`get_entity()`系列方法
| MSRA实体类别 | 标签(BIO标记法) |
| ------ | ------ |
| 人名 | B-PER I-PER |
| 地名 | B-LOC I-LOC |
| 机构名 | B-ORG I-ORG|
| 人民日报实体类别 | 标签(BIO标记法) |
| ------ | ------ |
| 人名 | B-PERSON I-PERSON |
| 普通地名 | B-LOC I-LOC |
| 行政区划地名 | B-GPE I-GPE |
| 机构名 | B-ORG I-ORG|
| 其他 | B-MISC I-MISC|
| WeiboNER实体类别 | 标签(BIO标记法) |
| ------ | ------ |
| 人名 | B-PER.NAM I-PER.NAM |
| 地名 | B-LOC.NAM I-LOC.NAM |
| 机构名 | B-ORG.NAM I-ORG.NAM|
| GPE-political | B-GPE.NAM I-GPE.NAM|
| 人名(nominal) | B-PER.NOM I-PER.NOM |
| 地名(nominal) | B-LOC.NOM I-LOC.NOM |
| 机构名(nominal) | B-ORG.NOM I-ORG.NOM|
| ResumeNER实体类别 | 标签(IOBES标记法) |
| ------ | ------ |
| 人名 | B-NAME M-NAME E-NAME、S-NAME |
| 民族/种族 | B-RACE M-RACE E-RACE、S-RACE |
| 国家 | B-CONT M-CONT E-CONT、S-CONT |
| 地名 | B-LOC M-LOC E-LOC、S-LOC|
| 专业 | B-PRO M-PRO E-PRO、S-PRO|
| 学历 | B-EDU M-EDU E-EDU、S-EDU|
| 职位 | B-TITLE M-TITLE E-TITLE、E-TITLE|
| 组织机构 | B-ORG M-ORG E-ORG 、S-ORG|
### 测试方法
输入如下命令完成测试集测试
`python main.py --mode test --dataset_name MSRA --demo_model 1522858865`
备注:训练过程中,每开始一次都会在“data_path_save/”目录下产生一个文件夹(以时间转换为整数来命名的),将训练的参数保存。
当测试的时候,想用哪次训练的参数进行测试,就将该次训练的文件名赋值给“--demo_model",即替换上面命令中的"1522858865"。
”1522858865“是我在训练时的最后参数。
### 演示
在这里可以输入一段文本,查看识别结果。
运行命令如下;
`python main.py --mode demo --dataset_name MSRA --demo_model 1522858865`
运行程序后,会提示输入一段文本,输入后就可以看到通过该代码识别的结果。
![demo](./pic/demo.PNG)
### 参考
\[1\] [Determined22/zh-NER-TF](https://github.com/Determined22/zh-NER-TF)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末大作业和毕设项目,作为参考资料学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研,自行调试。 基于TensorFlow的中文命名实体识别算法(python源码).zip
资源推荐
资源详情
资源评论
收起资源包目录
基于TensorFlow的中文命名实体识别算法(python源码).zip (31个子文件)
code_20105
utils.py 3KB
pic
demo.PNG 83KB
network.png 768KB
eval.py 753B
data_path
ResumeNER
dev_data.txt 117KB
test_data.txt 132KB
train_data.txt 1.04MB
人民日报
dev_data.txt 2.16MB
test_data.txt 2.44MB
原始数据
dev_data.txt 941KB
test_data.txt 1.87MB
train_data.txt 8.07MB
word2id.pkl 72KB
train_data.txt 11.74MB
WeiboNER
dev_data.txt 88KB
test_data.txt 90KB
train_data.txt 442KB
test_data.txt 1.06MB
word2id.pkl 60KB
train_data.txt 13.26MB
MSRA
test_data.txt 1.07MB
train_data.txt 13.38MB
original
test1.txt 510KB
testright1.txt 560KB
train1.txt 9.95MB
main.py 7KB
model.py 12KB
conlleval_rev.pl 12KB
data.py 7KB
.gitignore 45B
README.md 3KB
共 31 条
- 1
资源评论
土豆片片
- 粉丝: 1843
- 资源: 5866
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- JAVA的SpringBoot旅游信息管理系统网站源码数据库 MySQL源码类型 WebForm
- GPA案例介绍之因临时用地占用流出耕地
- FANUC FOCAS1/2 Library Edition 5.5
- 在线商城系统-系统设计
- 基于私有化部署的大语言模型prompt做恶意软件分析(内含数据集以及教程).zip
- Python毕业设计基于CNN视觉识别和知识图谱的饮食推荐系统源码.zip
- java生产管理ERP系统源码带本地搭建教程数据库 MySQL源码类型 WebForm
- 基于PyQt5编写的音乐播放器+源码+文档说明(高分作品)
- 大规模语言模型微调中不同数据与方法对性能的影响研究
- 大规模文本生成与嵌入统一模型GRIT的研究与应用
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功