翻訳タスクを対象としたLLMの評価指標
NLG評価* LLM総まとめ 論文によると、翻訳(MT)に使えるLLMの指標は以下の通り
https://scrapbox.io/files/65cdb55772c3e800246715fd.png
GPTScore: GPT3
GPTScore論文
GEMBA: ChatGPT
GEMBA論文
EAprompt: ChatGPT/davinchi-003
EAPrompt論文 -> 日本語の検証結果がなく、Few-Shotを作るのが面倒
BARTScore: BART
ChainForgeのモデルにない