BERTScore
BERTScoreは言語モデルBERTを利用した自動評価指標
教師なしかつ質の高いベクトル表現が得られる
事前学習されたBERTから得られるベクトル表現を利用して,テキスト間の類似度を計算する評価手法
文章をn-gramで区切った時にどれだけ一致するか個数を計算したもの。 0~1の値をとり、大きいほど一致している語が多いということになる。
正解データとして用意した参照文と、機械的に生成した生成文とを比べて、どれくらいの語が一致しているかを数えて、一致している語が多いほど生成したものの精度が良い、とする指標。
たとえば「This is a pen .」「This is an apple .」は、1-gramでは5件中3件一致、2-gramでは4件中1件一致している、といった具合です。
.
スコアは以下の図のような処理で計算する
https://scrapbox.io/files/659e02b9e505390023fa1c8e.png
まず生成テキスト(Candidate)と正解テキスト(Reference)をBERTに入力し,トークンのベクトル表現を獲得する
次に,それらのベクトル表現を利用して,トークン間のコサイン類似度行列を作成する
最後に各トークンに対して最大類似度(赤枠で囲まれた値)を利用して,Precision,Recall,F値を計算し,スコアとする
機械翻訳やキャプション生成において,BLEUScoreなどの評価手法と比べて,人手評価値との相関が高いことを示している