项目说明
本项目是基于bert+crf 做的一个NLP序列标注(目前支持分词,词性标注和实体识别训练,后续会加入其他的任务)模型,项目是基于https://github.com/circlePi/Bert_Chinese_Ner_pytorch
(在此感谢原作者的贡献)进行修改的。在原项目的基础上,加入了多卡训练,同时支持单卡和多卡模式,去掉了一些不必要的code,比如output_mask的形式。此外,加入了分词等nlp任务。
# 配置文件
bert_nlp/config/args.py
# 训练
### 分词训练
修改task_name为cws,以及一些其他超参数
CUDA_VISIBLE_DEVICES=0,1 python run.py
### 实体识别训练
修改task_name为ner,以及一些其他超参数
CUDA_VISIBLE_DEVICES=0,1 python run.py
### 词性训练
修改task_name为postag,以及一些其他超参数
CUDA_VISIBLE_DEVICES=0,1 python run.py
### 实体识别训练数据样例
data/ner_data/
### 分词训练数据样例
data/cws_data/
### 词性训练数据样例
data/postag_data/
### 词性标注符号:
n 普通名词
nt 时间名词
nd 方位名词
nl 处所名词
nh 人名
nhf 姓
nhs 名
ns 地名
nn 族名
ni 机构名
nz 其他专名
v 动词
vd 趋向动词
vl 联系动词
vu 能愿动词
a 形容词
f 区别词
m 数词
q 量词
d 副词
r 代词
p 介词
c 连词
u 助词
e 叹词
o 拟声词
i 习用语
j 缩略语
h 前接成分
k 后接成分
g 语素字
x 非语素字
w 标点符号
ws 非汉字字符串
wu 其他未知的符号
但因为中文的词性都是以词为单位的,因此,我们将每个词都进行了拆分,比如中国/n,拆分后就是:中/B-n,国/I-n;天安门/n,拆分为天/B-n,安/I-n,门/I-n。
因此,所有的label都进行了拓展,其中UNK表示可能存在不在列表中的词性。如下所示:
B-n I-n B-nt I-nt B-nd I-nd B-nl I-nl B-nh I-nh B-nhf I-nhf B-nhs I-nhs B-ns I-ns B-nn I-nn B-ni I-ni B-nz I-nz B-v I-v B-vd I-vd B-vl I-vl B-vu I-vu B-a I-a B-f I-f B-m I-m B-q I-q B-d I-d B-r I-r B-p I-p B-c I-c B-u I-u B-e I-e B-o I-o B-i I-i B-j I-j B-h I-h B-k I-k B-g I-g B-x I-x B-w I-w B-ws I-ws B-wu I-wu UNK
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
基于Pytorch、BERT 和 CRF 的 NLP 序列标注模型项目python源码(支持分词、词性标注和实体识别等任务)+项目说明.zip基于Pytorch、BERT 和 CRF 的 NLP 序列标注模型项目python源码(支持分词、词性标注和实体识别等任务)+项目说明.zip基于Pytorch、BERT 和 CRF 的 NLP 序列标注模型项目python源码(支持分词、词性标注和实体识别等任务)+项目说明.zip基于Pytorch、BERT 和 CRF 的 NLP 序列标注模型项目python源码(支持分词、词性标注和实体识别等任务)+项目说明.zip 个人大四的毕业设计、课程设计、作业、经导师指导并认可通过的高分设计项目,评审平均分达96.5分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。 [资源说明] 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设或者课设、作业,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96.5分,放心下载使用! 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),供学习参考。
资源推荐
资源详情
资源评论
收起资源包目录
基于Pytorch、BERT 和 CRF 的 NLP 序列标注模型项目python源码(支持分词、词性标注和实体识别等任务)+项目说明.zip (62个子文件)
SECURITY.md 619B
bert_nlp
Crf on the top of Bilstm.pptx 191KB
train
train.py 8KB
data
ner_data
ner.dev.json 126KB
ner.train.json 488KB
cws_data
cws.train.json 4.79MB
cws.dev.json 55KB
postag_data
postag.train.json 13.31MB
postag.dev.json 4.02MB
output
checkpoint
vocab.txt 107KB
logs
all.log.2020-05-18 138KB
images
loss_acc.png 68KB
Io
data_loader.py 3KB
net
crf.py 9KB
model_net.py 2KB
run.py 72B
model
pytorch_pretrained_model
bert_config.json 520B
vocab.txt 107KB
pytorch_pretrained_bert
file_utils.py 9KB
modeling.py 58KB
optimization.py 12KB
tokenization.py 17KB
main
main.py 984B
util
plot_util.py 1KB
model_util.py 777B
porgress_util.py 1KB
Logginger.py 2KB
preprocessing
data_processor.py 6KB
config
args.py 2KB
Project_upload_all
SECURITY.md 619B
bert_nlp
Crf on the top of Bilstm.pptx 191KB
train
train.py 8KB
data
ner_data
ner.dev.json 126KB
ner.train.json 488KB
cws_data
cws.train.json 4.79MB
cws.dev.json 55KB
postag_data
postag.train.json 13.31MB
postag.dev.json 4.02MB
output
checkpoint
vocab.txt 107KB
logs
all.log.2020-05-18 138KB
images
loss_acc.png 68KB
Io
data_loader.py 3KB
net
crf.py 9KB
model_net.py 2KB
run.py 72B
model
pytorch_pretrained_model
bert_config.json 520B
vocab.txt 107KB
pytorch_pretrained_bert
file_utils.py 9KB
modeling.py 58KB
optimization.py 12KB
tokenization.py 17KB
main
main.py 984B
util
plot_util.py 1KB
model_util.py 777B
porgress_util.py 1KB
Logginger.py 2KB
preprocessing
data_processor.py 6KB
config
args.py 2KB
requirements.txt 502B
README.md 2KB
requirements.txt 502B
README.md 2KB
共 62 条
- 1
资源评论
Scikit-learn
- 粉丝: 4195
- 资源: 1257
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功