要約タスクをどう評価するか?
データセット
日本語のタスクで要約タスクを扱っているのは
JP Language Model Evaluation Harness
XLSum-ja
評価指標
OpenAIが公式ブログに、要約タスクの評価方法について、発表している
G-Eval
を使った評価が2024年1月の現状最も精度が高い
ROUGE
や
BERTScore
などの従来の自動評価指標は具体的だが、実際の要約の品質と必ずしも相関しないため
参照が不要で、
GPT-4
を使った自動評価
評価基盤テンプレート
G-Eval
を、
ChainForge
で実装した評価基盤テンプレート
https://chainforge.ai/play/?f=3dum5zihzog08
詳細解説記事
OpenAIが公表した要約タスクの評価方法
参考
NLPタスクを評価する方法まとめ