翻訳タスクでの自動評価指標
https://scrapbox.io/files/65a9c731fcb24a0024538ea3.png
https://zenn.dev/ktymmt/articles/aa5e1e8cc4e68c
翻訳タスクの、従来からある自動評価指標では、以下の3つが有名
それぞれ、機械翻訳の出力が参照翻訳とどの程度「類似」しているかを測定する。
ROUGE
BLEUScore
METEOR
しかし、しばしば意味的な側面の評価において不足しており、誤解を招く結論につながる可能性がある。
また、これらの従来の方法は、人間の判断との低い整合性と、スコアの解釈性の欠如を持っており、課題がある
https://qiita.com/amtsyh/items/a926b79b90dfabe895e9