文章生成タスクを、どう評価するか?
NLG評価* LLM総まとめ 論文
では、プロンプトベースで評価する場合、以下3つが選択肢となる。
ブログなどの文章生成は、一般生成(GE)と物語生成(SG)の2つの側面あり
ChatEval
: ChainForgeで使えなさそう
以下の指標も汎用性が高い
ALLURE
: 要約と一般生成をカバー、GPT-4
G-Eval
: 要約と物語生成をカバー、GPT-4
AoT論文
、
ToT論文
、
ChatGPTはNLGの良い評価者? 論文
では、物語生成に対し
OpenMEVA-ROC
で評価をしていた
結論
ChainForge
での評価をベースに考えると、...? (In Progress)