pretrained-unilm-Chinese:中文版unilm预训练模型

共41个文件

py：21个

png：10个

md：4个

Python

需积分: 50 9 下载量 91 浏览量 2021-05-09 16:39:17 上传评论 2 收藏 1.55MB ZIP 举报

温馨提示

Pretrained-Unilm-Chinese 中文版unilm预训练语言模型 Table of Contents Background 最近由于公司业务的需要，做了一些基于预训练seq2seq模型的文本生成式任务，研究了、、之后，发现unilm这风格的seq2seq非常优雅。但是作者只开源了英文版的预训练模型，在git上也没找到合适的中文版unilm的预训练模型以及预训练代码，于是自己写了一个tensorflow版本。本项中预训练基于tensorflow-gpu==1.14.0，后续的微调任务基于。 Pretrain Training Data 简体中文维基百科数据，处理成一行一行句子对的形式。 Input Mask And Attention Mask 在一条数据中随机mask15%的token，被mask的token中80%用[MASK]表示，10%从vocab中随机选择一个tok

资源推荐

资源详情

资源评论