没有合适的资源?快使用搜索试试~ 我知道了~
研究场景: **多维评估**是自然语言生成(NLG)中人工评估的主导范式,即从多个可解释的维度评估生成的文本,如连贯性和流畅性。 前人方法: 然而,NLG中的自动评估仍然由**基于相似性的指标**主导,我们缺乏一个可靠的框架来对高级模型进行更全面的评估。 本文方法: 本文提出了一种面向NLG的**统一多维评估器UniEval**。 我们将NLG评估重新定义为**布尔问答(QA)**任务,通过使用不同的问题来指导模型,我们可以使用一个评估器从多个维度进行评估。 此外,由于统一的布尔QA格式,我们能够引入一个**中间学习阶段**,使UniEval能够从多个相关任务中纳入外部知识并获得进一步改进。 实验效果: 在三个典型的NLG任务上的实验表明,UniEval与人工判断的相关性比现有指标好得多。 具体来说,与表现最好的统一评估器相比,UniEval在文本**摘要**方面的相关性高出**23%**,在**对话响应生成**方面的相关性超过**43%**。 泛化分析: 此外,UniEval对**未见过的评估维度和任务**展示了**强大的零样本学习能力**。
资源推荐
资源评论
资源评论
qq_40936354
- 粉丝: 0
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功