没有合适的资源?快使用搜索试试~ 我知道了~
自然语言生成主客观评价指标原理详解(附代码实现)
需积分: 0 27 下载量 122 浏览量
2023-07-20
15:00:12
上传
评论 1
收藏 5.01MB PPTX 举报
温馨提示
试读
24页
自然语言生成主客观评价指标原理详解(附代码实现) 客观评价指标: BLEU、METEOR、ROUGE、NIST、Distinct、Repetition Embedding Average Score、Greedy Matching Score 、Vector Extrema Score BertScore、BARTScore、MoverScore、BLEURT、Perplexity TER、CIDEr、SPICE 主观评价指标: 评估场景设置:评估人员、评估维度、评估机制 一致性校验方法:Percentage Agreement、Cohen’s Kappa(Cohen’s κ)、Fleiss‘ Kappa(Fleiss’ κ ) 以及 Krippendorff’s Alpha(Krippendorff’s α)及其代码实现 课件中包括评价指标的论文出处以及论文示例。
资源推荐
资源详情
资源评论
自然语言生成 (NLG)
主客观评价指标原理详解(附代码实现)
_Meilinger_
2023.7.22
NLG评价指标总览
2
客观评价指标 — 基于词重叠
3
BLEU
关注精确率,计算生成文本中n-gram出现在参照文本中的比例,适用于数据集量级,在句子级表现不佳。
相关论文:Bleu:aMethodforAutomaticEvaluationofMachineTranslation(ACL,2002)
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
是对BLEU的改进,关注召回率,又可细分为ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S.
相关论文:ROUGE:Recall-orientedunderstudyforgistingevaluation(ACLWorkshp,2004)
METEOR
是对BLEU的改进,考虑了生成文本与参照文本之间的对齐关系,使用WordNet计算特定的序列匹配,同义词,词根和词缀,释义之
间的匹配关系。
相关论文:METEOR:AnAutomaticMetricforMTEvaluationwithImprovedCorrelationwithHumanJudgments(ACLWorkshop,
2005)
NIST(National Institute of standards and Technology)
是对BLEU的改进,引入了每个n-gram的信息量的概念。Tools | NIST
客观评价指标 — 基于词重叠
4
Distinct-n
用于评价生成文本的多样性,计算生成文本中不重复的n-gram数量与n-gram总数量的比值。取值范围:(0,1]
相关论文:Adiversity-promotingobjectivefunctionforneuralconversationmodels(NAACL,2016)
Repetition-n
用于间接评价生成文本的多样性,计算生成文本中频率高于1的的n-gram数量与n-gram总数量的比值。取值范围:(0,1]
相关论文:LongandDiverseTextGenerationwithPlanning-basedHierarchicalVariationalModel(EMNLP,2019)
注:在以上指标的计算中,不同的分词方式对计算结果有较大影响(参考链接),应根据目标任务选择较为适合的分
词方式进行计算。
剩余23页未读,继续阅读
资源评论
_Meilinger_
- 粉丝: 307
- 资源: 17
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功