没有合适的资源?快使用搜索试试~ 我知道了~
lm-evaluation-harness:一次评估自回归语言模型的框架
共64个文件
py:55个
md:3个
txt:1个
需积分: 31 2 下载量 152 浏览量
2021-04-05
08:05:16
上传
评论
收藏 86KB ZIP 举报
温馨提示
大型语言模型的评估工具 概述 该项目的目标是根据描述的GPT-3评估,构建一套用于评估典型NLU任务上的LM的工具。 按照最初的描述,此存储库应支持3个功能: LM评估 从LM训练集中删除任务评估/测试数据 将任务训练数据添加到LM训练集中 任务概述 任务名称 火车 值 测试 指标 可乐 ✓ ✓ ✓ 抄送 li ✓ ✓ ✓ acc mnli_mismatched ✓ ✓ ✓ acc MRPC ✓ ✓ ✓ acc,f1 te ✓ ✓ ✓ acc n里 ✓ ✓ ✓ acc qqp ✓ ✓ ✓ acc,f1 不锈钢 ✓ ✓ ✓ acc 万里 ✓ ✓ ✓ acc 布尔克 ✓ ✓ ✓ acc b ✓ ✓ ✓ acc,f1 美洲杯 ✓ ✓ ✓ acc 多媒体 ✓ ✓ ✓ acc 记录 ✓
资源推荐
资源详情
资源评论
收起资源包目录
lm-evaluation-harness-master.zip (64个子文件)
lm-evaluation-harness-master
lm_eval
models
dummy.py 539B
gpt2.py 4KB
__init__.py 225B
gpt3.py 5KB
utils.py 2KB
tasks
wsc273.py 5KB
common.py 1KB
arc.py 2KB
drop.py 8KB
storycloze.py 3KB
winogrande.py 4KB
glue.py 13KB
unscramble.py 3KB
hendrycks_test.py 5KB
quac.py 4KB
naturalqs.py 4KB
pubmedqa.py 2KB
lambada.py 2KB
coqa.py 6KB
anli.py 4KB
arithmetic.py 4KB
openbookqa.py 1KB
triviaqa.py 2KB
squad.py 6KB
sat.py 2KB
qa4mre.py 3KB
webqs.py 2KB
superglue.py 13KB
__init__.py 5KB
wikitext.py 4KB
headqa.py 1KB
hendrycks_math.py 9KB
sciq.py 2KB
piqa.py 1KB
hellaswag.py 2KB
translation.py 13KB
mathqa.py 1KB
race.py 4KB
logiqa.py 3KB
hendrycks_ethics.py 12KB
metrics.py 5KB
evaluator.py 4KB
__init__.py 0B
base.py 11KB
main.py 2KB
.github
workflows
python-app.yml 2KB
tests
test_evaluator.py 883B
test_tasks.py 3KB
test_models.py 598B
requirements.txt 201B
setup.py 700B
LICENSE.md 1KB
.gitignore 30B
download_all.sh 536B
README.md 12KB
scripts
fewshot_description_experiment.py 2KB
cost_estimate.py 2KB
write_out.py 2KB
make_table_tasks.py 530B
clean_training_data
janitor.cpp 7KB
janitor.py 11KB
README.md 1KB
get_prompts.py 641B
CODEOWNERS 21B
共 64 条
- 1
资源评论
A玩具爆款孙大帅
- 粉丝: 18
- 资源: 4712
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功