from tf2_bert.models import build_transformer_model from tf2_bert.tokenizers import Tokenizer import numpy as np # 定义预训练模型路径 model_dir = './chinese_roberta_wwm_ext_L-12_H-768_A-12' # BERT 参数 config_path = model_dir+'/bert_config.json' # 保存模型权值参数的文件 checkpoint_path = model_dir+'/bert_model.ckpt' # 词表 dict_path = model_dir+'/vocab.txt' # 建立分词器 tokenizer = Tokenizer(dict_path) # 建立模型，加载权重 model = build_transformer_model(config_path, checkpoint_path) # 句子 0 sentence0 = '机器学习' # 句子 1 sentence1 = '深度学习' # 用分词器对句子分词 tokenizer.tokenize tokens = tokenizer.tokenize(sentence0) # 分词后自动在句子前加上[CLS]，在句子后加上[SEP] print(tokens) # 对这个句子分词结果：['[CLS]', '机', '器', '学', '习', '[SEP]'] /* 开发不易，整理也不易，如需要详细的说明文档和程序，以及完整的数据集，训练好的模型，或者进一步开发，可加作者新联系方式咨询，WX：Q3101759565，QQ：3101759565 */ # 得到的结果中 1 表示批次大小，11 表示 11 个 token，（768 表示特征向量长度） # (1, 11, 768) print(pre.shape)

评论收藏

内容反馈

资源评论