基于BERT-BILSTM-CRF进行中文命名实体识别python源码+项目使用说明+数据+模型.zip

共20个文件

json：8个

py：6个

txt：5个

版权申诉

毕业设计

课程设计

课程大作业

项目源码

5星 · 超过95%的资源 167 浏览量 2023-10-25 18:16:31 上传评论 7 收藏 1.03MB ZIP 举报

【资源说明】基于BERT-BILSTM-CRF进行中文命名实体识别python源码+项目使用说明+数据+模型.zip 依赖 ```python scikit-learn==1.1.3 scipy==1.10.1 seqeval==1.2.2 transformers==4.27.4 pytorch-crf==0.7.2 ``` # 目录结构 ```python --checkpoint：模型和配置保存位置 --model_hub：预训练模型 ----chinese-bert-wwm-ext: --------vocab.txt --------pytorch_model.bin --------config.json --data：存放数据 ----dgre --------ori_data：原始的数据 --------ner_data：处理之后的数据 ------------labels.txt：标签 ------------train.txt：训练数据 ------------dev.txt：测试数据 --config.py：配置 --model.py：模型 --process.py：处理ori数据得到ner数据 --predict.py：加载训练好的模型进行预测 --main.py：训练和测试 ``` # 说明这里以dgre数据为例，其余数据类似。 ```python 1、去https://huggingface.co/hfl/chinese-bert-wwm-ext/tree/main下载相关文件到chinese-bert-wwm-ext下。 2、在process.py里面定义将ori_data里面的数据处理得到ner_data下的数据，ner_data下数据样本是这样的： --labels.txt 故障设备故障原因 --train.txt/dev.txt {"id": "AT0001", "text": ["6", "2", "号", "汽", "车", "故", "障", "报", "告", "综", "合", "情", "况", ":", "故", "障", "现", "象", ":", "加", "速", "后", "，", "丢", "开", "油", "门", "，", "发", "动", "机", "熄", "火", "。"], "labels": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-故障设备", "I-故障设备", "I-故障设备", "B-故障原因", "I-故障原因", "O"]} 一行一条样本，格式为BIO。 3、在config.py里面定义一些参数，比如： --max_seq_len：句子最大长度，GPU显存不够则调小。 --epochs：训练的epoch数 --train_batch_size：训练的batchsize大小，GPU显存不够则调小。 --dev_batch_size：验证的batchsize大小，GPU显存不够则调小。 --save_step：多少step保存模型其余的可保持不变。 4、在main.py里面修改data_name为数据集名称。需要注意的是名称和data下的数据集名称保持一致。最后运行：python main.py 5、在predict.py修改data_name并加入预测数据，最后运行：python predict.py ``` 【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用，也适合小白学习进阶，当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可直接用于毕设、课设、作业等。欢迎下载，沟通交流，互相学习，共同进步！

资源推荐

资源详情

资源评论

收起资源包目录

基于BERT-BILSTM-CRF进行中文命名实体识别python源码+项目使用说明+数据+模型.zip （20个子文件）

checkpoint

dgre

ner_args.json 870B

.ipynb_checkpoints

ner_args-checkpoint.json 870B

duie

ner_args.json 4KB

.ipynb_checkpoints

ner_args-checkpoint.json 4KB

model_hub

chinese-bert-wwm-ext

config.json 647B

vocab.txt 107KB

main.py 7KB

data

dgre

ner_data

dev.txt 280KB

labels.txt 25B

train.txt 3.17MB

ori_data

train.json 1.54MB

evalA.json 369KB

duie

ner_data

labels.txt 209B

ori_data

duie_schema.json 4KB

predict.py 5KB

process.py 10KB

data_loader.py 1KB

model.py 2KB

使用说明.md 9KB

config.py 2KB

{"id": "AT0001", "text": ["6", "2", "号", "汽", "车", "故", "障", "报", "告", "综", "合", "情", "况", ":", "故", "障", "现", "象", ":", "加", "速", "后", "，", "丢", "开", "油", "门", "，", "发", "动", "机", "熄", "火", "。"], "labels": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-故障设备", "I-故障设备", "I-故障设备", "B-故障原因", "I-故障原因", "O"]} {"id": "AT0002", "text": ["4", "9", "2", "号", "汽", "车", "故", "障", "报", "告", "故", "障", "现", "象", "一", "辆", "车", "用", "户", "用", "水", "清", "洗", "发", "动", "机", "后", "，", "在", "正", "常", "行", "驶", "时", "突", "然", "产", "生", "铛", "铛", "异", "响", "，", "自", "行", "熄", "火"], "labels": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-故障设备", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-故障原因", "I-故障原因", "O", "O", "O", "B-故障原因", "I-故障原因"]} {"id": "AT0003", "text": ["故", "障", "分", "析", ":", "1", ".", "经", "现", "场", "查", "看", "整", "车", "及", "动", "力", "电", "池", "故", "障", "灯", "报", "警", "；", "2", ".", "用", "上", "位", "机", "查", "看", "故", "障", "码", "为", "总", "电", "压", "欠", "压", "二", "级", "，", "单", "体", "欠", "压", "二", "级", "，", "总", "压", "为", "1", "3", "3", ".", "6", "V", "，", "最", "高", "单", "体", "电", "压", "为", "3", ".", "3", "7", "3", "V", "，", "最", "低", "单", "体", "电", "压", "为", "3", ".", "1", "2", "1", "V", "S", "O", "C", "为", "1", "7", "%", "初", "步", "判", "定", "S", "O", "C", "误", "差", "较", "大", "以", "及", "静", "态", "压", "差", "为", "2", "6", "5", "M", "V", "；", "3", ".", "将", "该", "车", "充", "满", "电", "后", "总", "压", "为", "1", "6", "7", ".", "3", "V", "，", "最", "高", "单", "体", "4", ".", "1", "8", "9", "V", "，", "最", "低", "单", "体", "4", ".", "1", "3", "5", "V", "，", "故", "判", "断", "为", "单", "体", "压", "差", "过", "大", "；", "4", ".", "当", "车", "辆", "总", "压", "为", "1", "3", "7", ".", "7", "V", "，", "S", "O", "C", "1", "7", "%", "最", "高", "单", "体", "电", "压", "3", ".", "4", "4", "5", "V", "，", "最", "低", "单", "体", "电", "压", "为", "3", ".", "4", "1", "4", "V", "时", "，", "整", "车", "及", "动", "力", "电", "池", "故", "障", "灯", "报", "警", "，", "其", "故", "障", "为", "放", "电", "高", "温", "一", "级", "报", "警", "，", "此", "时", "动", "力", "电", "池", "最", "高", "温", "度", "为", "4", "5", "℃", "（", "当", "天", "气", "温", "3", "1", "℃", "，", "电", "充", "满", "温", "度", "为", "3", "5", "℃", "途", "中", "路", "试", "未", "休", "息", "）", "；", "5", ".", "持", "续", "路", "试", "2", "次", "放", "电", "循", "环", "结", "果", "如", "下", "：", "①", "S", "O", "C", "1", "0", "%", "总", "压", "为", "1", "3", "8", "V", "，", "最", "高", "单", "体", "电", "压", "3", ".", "4", "5", "4", "V", "，", "最", "低", "单", "体", "电", "压", "为", "3", ".", "4", "2", "8", "V", "，", "电", "池", "温", "度", "4", "1", "℃", "、", "3", "8", "℃", "（", "当", "天", "气", "温", "3", "2", "℃", "路", "试", "中", "下", "雨", "，", "途", "中", "未", "休", "息", "）", "②", "S", "O", "C", "1", "3", "%", "总", "压", "为", "1", "3", "9", ".", "5", "V", "，", "最", "高", "单", "体", "电", "压", "为", "3", ".", "4", "9", "3", "V", "，", "最", "低", "单", "体", "电", "压", "为", "3", ".", "4", "5", "9", "V", "，", "电", "池", "温", "度", "3", "8", "℃", "、", "3", "6", "℃", "（", "当", "天", "气", "温", "为", "3", "0", "℃", "，", "分", "两", "次", "路", "试", "完", "成", "）", "；", "6", ".", "由", "于", "该", "车", "为", "O", "T", "S", "试", "制", "车", "根", "据", "以", "上", "所", "检", "测", "到", "的", "数", "据", "，", "S", "O", "C", "、", "温", "度", "、", "压", "差", "都", "不", "在", "正", "常", "范", "围", "内", "，", "依", "照", "现", "场", "条", "件", "，", "无", "法", "对", "上", "述", "异", "常", "情", "况", "现", "场", "进", "行", "排", "除", "。"], "labels": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-故障设备", "O", "B-故障设备", "I-故障设备", "I-故障设备", "I-故障设备", "I-故障设备", "I-故障设备", "I-故障设备", "B-故障原因", "I-故障原因", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-故障设备", "I-故障设备", "I-故障设备", "B-故障原因", "I-故障原因", "I-故障原因", "I-故障原因", "O", "B-故障设备", "I-故障设备", "B-故障原因", "I-故障原因", "I-故障原因", "I-故障原因", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-故障设备", "I-故障设备", "I-故障设备", "B-故障原因", "I-故障原因", "I-故障原因", "I-故障原因", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-故障原因", "I-故障原因", "I-故障原因", "I-故障原因", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-故障设备", "O", "B-故障设备", "I-故障设备", "I-故障设备", "I-故障设备", "I-故障设备", "I-故障设备", "I-故障设备", "B-故障原因", "I-故障原因", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"]} {"id": "AT0004", "text": ["6", "1", "7", "号", "汽", "车", "故", "障", "报", "告", "故", "障", "现", "象", "一", "辆", "吉", "利", "车", "装", "用", "M", "R", "4", "7", "9", "发", "动", "机", "，", "行", "驶", "里", "程", "为", "2", "3", "7", "0", "9", "公", "里", "，", "驾", "驶

评论收藏

内容反馈

版权申诉