文章生成タスクを、どう評価するか？ - evergreens

文章生成タスクを、どう評価するか？

NLG評価* LLM総まとめ論文では、プロンプトベースで評価する場合、以下3つが選択肢となる。

ブログなどの文章生成は、一般生成(GE)と物語生成(SG)の2つの側面あり

ChatEval: ChainForgeで使えなさそう

以下の指標も汎用性が高い

ALLURE: 要約と一般生成をカバー、GPT-4

G-Eval: 要約と物語生成をカバー、GPT-4

AoT論文、ToT論文、ChatGPTはNLGの良い評価者? 論文では、物語生成に対しOpenMEVA-ROCで評価をしていた

結論

ChainForgeでの評価をベースに考えると、...? (In Progress)