# pytorch_bert_chinese_ner
基于bert的中文实体识别,并使用字形嵌入和拼音嵌入。
# 依赖
```python
transformers==4.5.0
torch==1.6.0+
pypinyin
```
# 运行
1、hugging face上下载模chinese-bert-wwm-ext模型文件到model_hub/chinese-bert-wwm-ext/下。
2、需要生成字形嵌入所需的文件,运行:```python get_glyph.py```
3、训练、验证、测试和预测。
单纯的bert实体识别:
```python
python main.py
【eval】 precision=0.9651 recall=0.9511 f1_score=0.9580
['ORG', 'TITLE', 'CONT', 'NAME', 'PRO', 'LOC', 'RACE', 'EDU']
precision recall f1-score support
ORG 0.95 0.93 0.94 551
TITLE 0.95 0.95 0.95 762
CONT 1.00 1.00 1.00 28
NAME 1.00 1.00 1.00 112
PRO 1.00 0.94 0.97 33
LOC 1.00 1.00 1.00 6
RACE 1.00 1.00 1.00 14
EDU 0.98 0.98 0.98 112
micro-f1 0.96 0.95 0.95 1618
text= 陈学军先生:1967年5月出生,大学毕业,高级经济师。
{'ORG': [], 'TITLE': [('高级经济师', 21)], 'CONT': [], 'NAME': [('陈学军', 0)], 'PRO': [], 'LOC': [], 'RACE': [], 'EDU': [('大学', 16)]}
```
加上字形嵌入和拼音嵌入:
```python
python main2.py
【eval】 precision=0.9591 recall=0.9501 f1_score=0.9546
【best f1】 0.9546
['ORG', 'TITLE', 'CONT', 'NAME', 'PRO', 'LOC', 'RACE', 'EDU']
precision recall f1-score support
ORG 0.93 0.93 0.93 551
TITLE 0.95 0.94 0.95 762
CONT 1.00 1.00 1.00 28
NAME 0.99 1.00 1.00 112
PRO 0.97 0.86 0.91 33
LOC 0.67 0.80 0.73 6
RACE 0.93 0.93 0.93 14
EDU 0.97 0.94 0.96 112
micro-f1 0.95 0.94 0.94 1618
text= 陈学军先生:1967年5月出生,大学毕业,高级经济师。
{'ORG': [], 'TITLE': [('高级经济师', 21)], 'CONT': [], 'NAME': [('陈学军', 0)], 'PRO': [], 'LOC': [], 'RACE': [], 'EDU': [('大学', 16)]}
```
# 总结
1、加入字形和拼音,训练速度没有原始的快,而且效果也没原始的好,可能的原因是:
- 不适合该数据集;
- 可能需要调整参数或者训练策略;
2、如果想要训练其他的数据集,可参考resume数据集的格式。
# 参考
部分代码参考ChineseBert。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
基于bert的中文实体识别,并使用字形嵌入和拼音嵌入。 # 依赖 ```python transformers==4.5.0 torch==1.6.0+ pypinyin ``` # 运行 1、hugging face上下载模chinese-bert-wwm-ext模型文件到model_hub/chinese-bert-wwm-ext/下。 2、需要生成字形嵌入所需的文件,运行:```python get_glyph.py``` 3、训练、验证、测试和预测。 个人经导师指导并认可通过的高分项目,评审分98分。主要针对计算机相关专业和需要项目实战练习的学习者,也可作为课程设计、期末大作业
资源推荐
资源详情
资源评论
收起资源包目录
基于bert的中文实体识别,并使用字形嵌入和拼音嵌入.7z (20个子文件)
基于bert的中文实体识别,并使用字形嵌入和拼音嵌入
pytorch_bert_chinese_ner-main
main2.py 22KB
get_glyph.py 1KB
metrics.py 2KB
main.py 16KB
data
pingyin
pinyin_map.json 466B
id2pinyin.json 1.1MB
pinyin2tensor.json 49KB
glyph
STXingkai.ttf 3.83MB
STFangsong.ttf 10.83MB
方正古隶繁体.ttf 7.06MB
resume
raw_data
train.char.bmes 1.04MB
dev.char.bmes 117KB
test.char.bmes 132KB
mid_data
valid.txt 214KB
labels.txt 36B
test.txt 236KB
train.txt 1.88MB
process.py 1KB
checkpoints
resume
占位.txt 0B
README.md 3KB
共 20 条
- 1
资源评论
墨痕_777
- 粉丝: 4317
- 资源: 776
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功