文章生成タスクを、どう評価するか?
NLG評価* LLM総まとめ 論文では、プロンプトベースで評価する場合、以下3つが選択肢となる。
ブログなどの文章生成は、一般生成(GE)と物語生成(SG)の2つの側面あり
ChatEval: ChainForgeで使えなさそう
以下の指標も汎用性が高い
ALLURE: 要約と一般生成をカバー、GPT-4
G-Eval: 要約と物語生成をカバー、GPT-4
AoT論文、ToT論文、ChatGPTはNLGの良い評価者? 論文では、物語生成に対しOpenMEVA-ROCで評価をしていた
結論
ChainForgeでの評価をベースに考えると、...? (In Progress)