1.项目代码均经过功能验证ok,确保稳定可靠运行。欢迎下载体验!下载完使用问题请私信沟通。 2.主要针对各个计算机相关专业,包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.当然也鼓励大家基于此进行二次开发。在使用过程中,如有问题或建议,请及时沟通。 5.期待你能在项目中找到乐趣和灵感,也欢迎你的分享和反馈! 【资源说明】 基于Pytorch框架的TPLinker_plus中文命名实体识别python源码+使用说明+模型+数据集.zip 还是和之前其它几种实体识别方式相同的代码模板,这里稍微做了一些修改,主要是在数据加载方面。之前都是预先处理好所有需要的数据保存好,由于tplinker需要更多内存,这里使用DataLoader中的collate_fn对每一批的数据分别进行操作,可以大大减少内存的使用。模型主要是来自这里:[tplinker_plus](https://github.com/Tongjilibo/bert4torch/blob/master/examples/sequence_labeling/task_sequence_labeling_ner_tplinker_plus.py),需要额外了解的知识有:[基于Conditional Layer Normalization的条件文本生成 - 科学空间|Scientific Spaces](https://spaces.ac.cn/archives/7124)和[将“softmax+交叉熵”推广到多标签分类问题 - 科学空间|Scientific Spaces](https://www.spaces.ac.cn/archives/7359)。实现运行步骤如下: - 1、在raw_data下新建一个process.py将数据处理成mid_data下的格式。 - 2、修改部分参数运行main.py,以进行训练、验证、测试和预测。 模型及数据下载地址:链接:https://pan.baidu.com/s/1B-e-MV1lOMQj2ur5MADRww?pwd=he3e 提取码:he3e # 依赖 ``` pytorch==1.6.0 tensorboasX seqeval pytorch-crf==0.7.2 transformers==4.4.0 ``` # 运行 在16GB的显存下都只能以batch_size=2进行运行。。。 ```python python main.py \ --bert_dir="model_hub/chinese-bert-wwm-ext/" \ --data_dir="./data/cner/" \ --log_dir="./logs/" \ --output_dir="./checkpoints/" \ --num_tags=8 \ --seed=123 \ --gpu_ids="0" \ --max_seq_len=150 \ --lr=3e-5 \ --other_lr=3e-4 \ --train_batch_size=2 \ --train_epochs=1 \ --eval_batch_size=8 \ --max_grad_norm=1 \ --warmup_proportion=0.1 \ --adam_epsilon=1e-8 \ --weight_decay=0.01 \ --dropout_prob=0.3 \ ``` ### 结果 ```python precision:0.8806 recall:0.8999 micro_f1:0.8901 precision recall f1-score support TITLE 0.87 0.88 0.87 767 RACE 0.88 0.93 0.90 15 CONT 1.00 1.00 1.00 33 ORG 0.89 0.90 0.89 543 NAME 0.99 1.00 1.00 110 EDU 0.82 0.94 0.88 109 PRO 0.67 0.95 0.78 19
- 1
- 粉丝: 2222
- 资源: 1823
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助