没有合适的资源?快使用搜索试试~ 我知道了~
pretrained-unilm-Chinese:中文版unilm预训练模型
共41个文件
py:21个
png:10个
md:4个
需积分: 50 9 下载量 91 浏览量
2021-05-09
16:39:17
上传
评论 2
收藏 1.55MB ZIP 举报
温馨提示
Pretrained-Unilm-Chinese 中文版unilm预训练语言模型 Table of Contents Background 最近由于公司业务的需要,做了一些基于预训练seq2seq模型的文本生成式任务,研究了、、之后,发现unilm这风格的seq2seq非常优雅。但是作者只开源了英文版的预训练模型,在git上也没找到合适的中文版unilm的预训练模型以及预训练代码,于是自己写了一个tensorflow版本。本项中预训练基于tensorflow-gpu==1.14.0,后续的微调任务基于。 Pretrain Training Data 简体中文维基百科数据,处理成一行一行句子对的形式。 Input Mask And Attention Mask 在一条数据中随机mask15%的token,被mask的token中80%用[MASK]表示,10%从vocab中随机选择一个tok
资源推荐
资源详情
资源评论
收起资源包目录
pretrained-unilm-Chinese-master.zip (41个子文件)
pretrained-unilm-Chinese-master
pic
image-20201123144313297.png 161KB
image-20201119142146145.png 247KB
image-20201126145937390.png 39KB
image-20201126141922904.png 25KB
image-20201029110703723.png 739KB
image-20201126141626762.png 24KB
image-20201126145730036.png 39KB
image-20201126141822288.png 24KB
image-20201118100107676.png 263KB
image-20201126142013570.png 25KB
base
optimization_google.py 8KB
bert
tokenization.py 12KB
modeling_test.py 9KB
extract_features.py 14KB
predicting_movie_reviews_with_bert_on_tf_hub.ipynb 65KB
LICENSE 11KB
CONTRIBUTING.md 1KB
__init__.py 616B
requirements.txt 110B
sample_text.txt 4KB
optimization.py 6KB
.gitignore 1KB
run_pretraining.py 18KB
tokenization_test.py 4KB
run_classifier_with_tfhub.py 11KB
run_squad.py 45KB
README.md 44KB
modeling.py 37KB
multilingual.md 11KB
run_classifier_1.py 34KB
optimization_test.py 2KB
create_pretraining_data.py 16KB
admw.py 7KB
data_load.py 10KB
lamb_optimizer_google.py 6KB
run_pretraining_google.py 17KB
task
task_web_qa.py 9KB
task_seq2seq_autotitle_csl.py 6KB
dataset
.gitkeep 0B
task_summary.py 7KB
README.md 6KB
共 41 条
- 1
资源评论
靳骁曈
- 粉丝: 23
- 资源: 4680
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功