MoverScore
MoverScoreは、文間の意味的な類似性を計測するために、事前学習された単語埋め込みモデル(たとえばBERTなど)を使用する。 このモデルは、文中の各単語やフレーズの文脈に基づいたベクトル表現を生成し、これらのベクトル表現を利用して、生成されたテキストと参照テキスト間の意味的な重なりを評価する。
具体的には、MoverScoreは文中の単語間の距離を計算し、これらの距離を基にスコアを算出。スコアは、生成されたテキストが参照テキストとどれだけ意味的に類似しているかを示す。このプロセスには、Earth Mover's Distance(EMD)という統計的な手法が用いられており、これにより文間の意味的な類似性をより正確に捉えることができる。
実験では機械翻訳,キャプション生成などのデータセットを利用して人手評価値との相関が高いことが示された。特に,BERTScoreとも比較しており,MoverScoreの方が人手評価値との相関が高い結果となった。