gpt-2-training:在俄语语料库上培训GPT-2

共24个文件

py：10个

txt：7个

png：3个

Python

需积分: 5 1 下载量 98 浏览量 2021-05-27 11:01:09 上传评论收藏 2.12MB ZIP 举报

温馨提示

在俄语语料库上培训GPT-2 免责声明：我和这个仓库都不以任何方式与OpenAI相关联。我尽我最大的努力进行了DYOR，但是，我可能会完全错误地表达以下内容。 TL; DR 我已经在相当多样化的俄罗斯新闻语料库（〜4Gb）上训练了一个大型GPT-2（1.25B参数），训练损失为2.42，并且对结果感到满意。训练有素的模型可供下载。目录 1.快速入门克隆注释掉model.py中的if layer == 10:行，以使检查点正常工作（以节省内存）安装使用此src/encoder_sp.py （复制到src/目录）在相关文件（encode.py和采样脚本）中将所有相关的import encoder替换为“ import encoder_sp as encoding”。使用您的数据集训练sp标记器模型 spm_train --character_coverage

资源推荐

资源详情

资源评论