【资源说明】 基于BERT-BILSTM-CRF进行中文命名实体识别python源码+项目使用说明+数据+模型.zip 依赖 ```python scikit-learn==1.1.3 scipy==1.10.1 seqeval==1.2.2 transformers==4.27.4 pytorch-crf==0.7.2 ``` # 目录结构 ```python --checkpoint:模型和配置保存位置 --model_hub:预训练模型 ----chinese-bert-wwm-ext: --------vocab.txt --------pytorch_model.bin --------config.json --data:存放数据 ----dgre --------ori_data:原始的数据 --------ner_data:处理之后的数据 ------------labels.txt:标签 ------------train.txt:训练数据 ------------dev.txt:测试数据 --config.py:配置 --model.py:模型 --process.py:处理ori数据得到ner数据 --predict.py:加载训练好的模型进行预测 --main.py:训练和测试 ``` # 说明 这里以dgre数据为例,其余数据类似。 ```python 1、去https://huggingface.co/hfl/chinese-bert-wwm-ext/tree/main下载相关文件到chinese-bert-wwm-ext下。 2、在process.py里面定义将ori_data里面的数据处理得到ner_data下的数据,ner_data下数据样本是这样的: --labels.txt 故障设备 故障原因 --train.txt/dev.txt {"id": "AT0001", "text": ["6", "2", "号", "汽", "车", "故", "障", "报", "告", "综", "合", "情", "况", ":", "故", "障", "现", "象", ":", "加", "速", "后", ",", "丢", "开", "油", "门", ",", "发", "动", "机", "熄", "火", "。"], "labels": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-故障设备", "I-故障设备", "I-故障设备", "B-故障原因", "I-故障原因", "O"]} 一行一条样本,格式为BIO。 3、在config.py里面定义一些参数,比如: --max_seq_len:句子最大长度,GPU显存不够则调小。 --epochs:训练的epoch数 --train_batch_size:训练的batchsize大小,GPU显存不够则调小。 --dev_batch_size:验证的batchsize大小,GPU显存不够则调小。 --save_step:多少step保存模型 其余的可保持不变。 4、在main.py里面修改data_name为数据集名称。需要注意的是名称和data下的数据集名称保持一致。最后运行:python main.py 5、在predict.py修改data_name并加入预测数据,最后运行:python predict.py ``` 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
- 1
- 刘刘啊哦2023-11-09非常有用的资源,可以直接使用,对我很有用,果断支持!
- 2301_774735872024-01-06发现一个超赞的资源,赶紧学习起来,大家一起进步,支持!
- 粉丝: 5725
- 资源: 3570
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助