lm-evaluation-harness:一次评估自回归语言模型的框架

共64个文件

py：55个

md：3个

txt：1个

Python

需积分: 31 2 下载量 152 浏览量 2021-04-05 08:05:16 上传评论收藏 86KB ZIP 举报

温馨提示

大型语言模型的评估工具概述该项目的目标是根据描述的GPT-3评估，构建一套用于评估典型NLU任务上的LM的工具。按照最初的描述，此存储库应支持3个功能： LM评估从LM训练集中删除任务评估/测试数据将任务训练数据添加到LM训练集中任务概述任务名称火车值测试指标可乐 ✓ ✓ ✓ 抄送 li ✓ ✓ ✓ acc mnli_mismatched ✓ ✓ ✓ acc MRPC ✓ ✓ ✓ acc，f1 te ✓ ✓ ✓ acc n里 ✓ ✓ ✓ acc qqp ✓ ✓ ✓ acc，f1 不锈钢 ✓ ✓ ✓ acc 万里 ✓ ✓ ✓ acc 布尔克 ✓ ✓ ✓ acc b ✓ ✓ ✓ acc，f1 美洲杯 ✓ ✓ ✓ acc 多媒体 ✓ ✓ ✓ acc 记录 ✓

资源推荐

资源详情

资源评论