BLEUScore
BLEUスコアは、現在最も広く使用されている機械翻訳の評価方法。
この評価方法の前提は、「プロの翻訳者の訳と近ければ近いほどその機械翻訳の精度は高い」というもの。
現在では機械翻訳の精度はプロの翻訳者に及ばないため、これは理にかなった考え方だといえる。
翻訳の正解は1つではないことがほとんどであるため、BLEUスコアでの評価を行う際には正解となる訳を複数用意する。
そのうえで、計算式を用いて一致度を算出する。
https://scrapbox.io/files/659deea285631c00269594b0.png
なおBLEUスコアは0~1の間の実数で表現され、その数値を100倍し、スコアが100に近ければ近いほど評価が高くなります。目安としては、スコアが40以上であれば高品質といえます。
課題
人間の評価と大きく異なる場合がある
評価の妥当性は未知数
日本語の翻訳におけるBLEUスコアの妥当性は未知数
解決策