ROUGE
https://scrapbox.io/files/659dbaca16551e00241c1718.png
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
NLGにおける、要約タスクのうちの1つ
モデルの作成した文章と、人間が作成した文章を比較する
人手で作成した文章のどれくらいの割合が生成文に含まれるか?
Recall-orientedとされているが、論文ではF値が報告されるので注意
https://scrapbox.io/files/659dbb4952aaee00250a53e8.png
https://scrapbox.io/files/659dbb6e099bf7002416f564.png
課題
ROUGEおよびBLEUScoreのような類似の測定基準は定量的な尺度を提供するが、よく作成された要約の本質を捉えられないことが多い。また、人間のスコアとの相関も悪い。流暢で首尾一貫した要約を作成することに長けているLLMの進歩を考えると、ROUGEのような従来の測定基準は、不注意にもこれらのモデルにペナルティを与えてしまう可能性がある。これは、要約の表現が異なっていても、核となる情報が正確に要約されている場合に特に当てはまります。