翻译其实是没有一个标准答案的,只能最终提供一个参考答案。所以评估结果是依据参考答案得出来的
常用的评估:BLEU:
判断翻译结果中,所有的N元祖,和标准答案N元祖之间的重合度
通常计算精确度是计算1~4元的
添加一个惩罚项penalty,当输出长度比参考的长度长的时候系数取1;当输出比参考短的时候,取他俩长度的比值。
(惩罚项的意义就在于,如果翻译得到的输出比原句子短,越短说明翻译准确率越低,因此乘上相应的比例来衰减最终的BLEU得分)