1.项目代码均经过功能验证ok,确保稳定可靠运行。欢迎下载体验!下载完使用问题请私信沟通。 2.主要针对各个计算机相关专业,包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.当然也鼓励大家基于此进行二次开发。在使用过程中,如有问题或建议,请及时沟通。 5.期待你能在项目中找到乐趣和灵感,也欢迎你的分享和反馈! 【资源说明】 Pytorch框架基于BERT-BILSTM-CRF实现的中文命名实体识别python源码+详细项目说明.zip 依赖 ```python python==3.6 (可选) pytorch==1.6.0 (可选) pytorch-crf==0.7.2 transformers==4.5.0 numpy==1.22.4 packaging==21.3 ``` **** 这里总结下步骤,以cner数据为例: ```python 先去hugging face下载相关文件到chinese-bert-wwwm-ext下。 目录结构: --pytorch_bilstm_crf_ner --model_hub ----chinese-bert-wwm-ext ------vocab.txt ------config.json ------pytorch_model.bin 1、原始数据放在data/cner/raw_data/下,并新建mid_data和final_data两个文件夹。 2、将raw_data下的数据处理成mid_data下的格式。其中: --labels.txt:实体类别 ["PRO", "ORG", "CONT", "RACE", "NAME", "EDU", "LOC", "TITLE"] --nor_ent2id.json:BIOES格式的标签 {"O": 0, "B-PRO": 1, "I-PRO": 2, "E-PRO": 3, "S-PRO": 4, "B-ORG": 5, "I-ORG": 6, "E-ORG": 7, "S-ORG": 8, "B-CONT": 9, "I-CONT": 10, "E-CONT": 11, "S-CONT": 12, "B-RACE": 13, "I-RACE": 14, "E-RACE": 15, "S-RACE": 16, "B-NAME": 17, "I-NAME": 18, "E-NAME": 19, "S-NAME": 20, "B-EDU": 21, "I-EDU": 22, "E-EDU": 23, "S-EDU": 24, "B-LOC": 25, "I-LOC": 26, "E-LOC": 27, "S-LOC": 28, "B-TITLE": 29, "I-TITLE": 30, "E-TITLE": 31, "S-TITLE": 32} --train.json/dev.json/test.json:是一个列表,列表里面每个元素是: [ { "id": 0, "text": "常建良,男,", "labels": [ [ "T0", "NAME", 0, 3, # 后一位 "常建良" ] ] }, ...... ] 3、在preprocess.py里面修改数据集名称和设置文本最大长度,并按照其它数据一样添加一段代码。运行后得到final_data下的数据。 4、运行指令进行训练、验证和测试: python main.py \ --bert_dir="../model_hub/chinese-bert-wwm-ext/" \ --data_dir="./data/cner/" \ --data_name="cner" \ --model_name="bert" \# 默认为bert --log_dir="./logs/" \ --output_dir="./checkpoints/" \ --num_tags=33 \# BIOES标签的数目 --seed=123 \ --gpu_ids="0" \ --max_seq_len=150 \# 文本最大长度,和prepcoess.py里面保持一致 --lr=3e-5 \ --crf_lr=3e-2 \ --other_lr=3e-4 \ --train_batch_size=32 \# 训练batch_size --train_epochs=3 \# 训练epoc
- 1
- 2
- 粉丝: 3889
- 资源: 4857
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- evo-master.zip
- iNode智能客户端官方版是H3C公司自行设计开发出的一款智能客户端软件工具 iNode智能客户端可实现对网络的管理接入,对用户终端进行身份认证等等功能,从而大幅度提高网络的整体安全
- Documents.zip
- caxa电子图板工艺图表补丁文件2025版本
- <项目代码>YOLOv8 无人机航拍红外人车识别<目标检测>
- python股票量化系统源码+文档说明(深度学习量化项目)
- iNode智能客户端官方版是H3C公司自行设计开发出的一款智能客户端软件工具 iNode智能客户端可实现对网络的管理接入,对用户终端进行身份认证等等功能,从而大幅度提高网络的整体安全
- Python自动办公-Python检查word文件中的特殊标记词是否与文件名中的一致
- elasticsearch:7.15.2 docker镜像
- 毕业设计-基于STM32的自动扶梯控制器设计(源码+毕业论文+开题报告)C语言