要約タスクをどう評価するか?
データセット
日本語のタスクで要約タスクを扱っているのは
JP Language Model Evaluation Harness
XLSum-ja
評価指標
OpenAIが公式ブログに、要約タスクの評価方法について、発表している
G-Evalを使った評価が2024年1月の現状最も精度が高い
ROUGEやBERTScoreなどの従来の自動評価指標は具体的だが、実際の要約の品質と必ずしも相関しないため
参照が不要で、GPT-4を使った自動評価
評価基盤テンプレート
G-Evalを、ChainForgeで実装した評価基盤テンプレート
https://chainforge.ai/play/?f=3dum5zihzog08
詳細解説記事
OpenAIが公表した要約タスクの評価方法
参考
NLPタスクを評価する方法まとめ