没有合适的资源?快使用搜索试试~ 我知道了~
kirt_bert_on_abci:在ABCI上对BERT进行培训
共142个文件
py:134个
model:2个
txt:2个
需积分: 5 0 下载量 61 浏览量
2021-05-27
05:06:34
上传
评论
收藏 994KB ZIP 举报
温馨提示
ABCI-BERT_BETA 使用 (测试版)上对进行培训。 ***新更新*** 按长度分组样本 在此版本中,我们将样本分为三个块,每个块的长度固定(128、256、512)。 长度为N的块包含长度<=(N-2)的句子的串联 对于连续的短句子,我们将其视为长句子并直接将其合并。 对于不连续的短句,我们在它们之间添加了分隔符。 来自不同文档的句子也将带有分隔符 将通过上述连接方法构建块N中的一个样本,直到它们达到N-2的长度。 2个空格用于CLS和SEP令牌 直接从代币训练 alpha版本中的管道为:生成令牌->根据令牌生成训练数据->根据生成的数据进行训练。 在此Beta版本中,我们将该流程缩短为:生成令牌(按长度分组)->从令牌进行训练 生成令牌时支持多处理 我们意识到,没有必要将所有原始文本放入一个文件中,因为这样可以避免使用多处理功能。 在此版本中,我们建议用户将其原始文本拆分为
资源推荐
资源详情
资源评论
收起资源包目录
kirt_bert_on_abci:在ABCI上对BERT进行培训 (142个子文件)
LICENSE 11KB
README.md 8KB
spiece.model 742KB
test_sentencepiece.model 247KB
modeling_xlnet.py 72KB
modeling_bert.py 67KB
tokenization_utils.py 57KB
modeling_tf_xlnet.py 56KB
modeling_tf_bert.py 55KB
modeling_xlm.py 46KB
modeling_utils.py 44KB
modeling_transfo_xl.py 40KB
modeling_auto.py 39KB
modeling_albert.py 39KB
modeling_distilbert.py 39KB
modeling_tf_albert.py 39KB
modeling_tf_xlm.py 38KB
modeling_tf_distilbert.py 37KB
modeling_tf_auto.py 37KB
tokenization_xlm.py 36KB
modeling_tf_transfo_xl.py 36KB
modeling_common_test.py 35KB
modeling_gpt2.py 34KB
modeling_tf_gpt2.py 31KB
modeling_openai.py 30KB
modeling_roberta.py 30KB
modeling_tf_openai.py 29KB
modeling_tf_utils.py 26KB
modeling_ctrl.py 24KB
modeling_tf_ctrl.py 24KB
tokenization_bert.py 22KB
modeling_tf_common_test.py 22KB
modeling_tf_roberta.py 22KB
tokenization_transfo_xl.py 21KB
glue.py 20KB
modeling_bert_test.py 19KB
various_length_trainer.py 18KB
modeling_camembert.py 17KB
tokenization_tests_commons.py 17KB
trainer.py 16KB
modeling_encoder_decoder.py 15KB
convert_pytorch_checkpoint_to_tf2.py 15KB
modeling_tf_bert_test.py 15KB
modeling_xlnet_test.py 14KB
modeling_xlm_test.py 14KB
modeling_transfo_xl_utilities.py 13KB
modeling_tf_xlnet_test.py 13KB
file_utils.py 13KB
modeling_tf_pytorch_utils.py 12KB
__init__.py 11KB
modeling_roberta_test.py 11KB
preprocessing.py 11KB
modeling_tf_roberta_test.py 11KB
configuration_utils.py 11KB
modeling_tf_xlm_test.py 11KB
tokenization_albert.py 11KB
modeling_distilbert_test.py 11KB
modeling_albert_test.py 11KB
modeling_beam_search.py 10KB
tokenization_xlnet.py 10KB
modeling_gpt2_test.py 10KB
modeling_tf_openai_gpt_test.py 10KB
modeling_tf_gpt2_test.py 10KB
tokenization_gpt2.py 10KB
modeling_tf_albert_test.py 10KB
modeling_tf_distilbert_test.py 10KB
train_on_tokens.py 9KB
configuration_auto.py 9KB
modeling_openai_test.py 9KB
generate_bert_tokens_grouped_by_length.py 9KB
modeling_transfo_xl_test.py 8KB
modeling_ctrl_test.py 8KB
convert_roberta_original_pytorch_checkpoint_to_pytorch.py 8KB
modeling_tf_transfo_xl_test.py 8KB
modeling_tf_ctrl_test.py 8KB
tokenization_auto.py 8KB
modeling_tf_transfo_xl_utilities.py 8KB
configuration_xlm.py 8KB
radam.py 8KB
tokenization_ctrl.py 8KB
tokenization_openai.py 8KB
optimization.py 7KB
tokenization_camembert.py 7KB
tokenization_roberta.py 7KB
ranger.py 7KB
__main__.py 7KB
meta.py 7KB
ssplit.py 7KB
configuration_transfo_xl.py 7KB
configuration_xlnet.py 7KB
configuration_bert.py 7KB
optimization_test.py 7KB
configuration_gpt2.py 6KB
configuration_ctrl.py 6KB
convert_transfo_xl_original_tf_checkpoint_to_pytorch.py 5KB
tokenization_bert_test.py 5KB
tokenization_xlnet_test.py 5KB
configuration_albert.py 5KB
configuration_openai.py 5KB
lamb.py 5KB
共 142 条
- 1
- 2
资源评论
九九长安
- 粉丝: 20
- 资源: 4534
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于FREERTOS、LCD1602、MCP3202(SPI接口)2通道ADC采集proteus仿真设计
- 基于 Java+NLP的微博舆情分析系统
- 基于Python+NLPIR的网易新闻舆情分析系统
- 基于STM32F103C8T6、LCD1602、MCP3204的 4通道12位ADC转换proteus仿真设计
- 字模转换软件,适用微雪汉字库
- 实现函数P197.4.ms11
- 基于python+flask的舆情分析系统,包括爬虫、可视化、数据分析、情感分析等模块
- 文本检测-基于Pytorch实现的可微分二值化实时场景文本检测算法-附项目源码-优质项目实战.zip
- 8.2.cpp
- 开源流媒体框架ZLMediaKit C API JAVA实现,打造属于自己的流媒体服务
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功