Blue 评测
(一)
Blue 通常用来度量一组机器产生的翻译句子集合 (candidates)与一组人工翻译句子集合
(references)的相似程度。Blue 的具体计算过程看下图:
在这
里解
释一
下:
式中
的 n
为当
前匹
配
n-
gram 的长度,这里的 N=4(也可以是其 1,2,3),是 n-gram 匹配权重,BP 是用来对过短候选翻
译的惩罚系数,是利用当前 n-gram 匹配对候选机器翻译基于精度的评测
式 中 : 为 n-gram 同
时在一组人翻译和机器翻译中出现
次数最大的值,而
为 n-gram 在机器翻译中出现的次数。
注:该图来自维基百科