翻訳タスクを対象としたLLMの評価指標
NLG評価* LLM総まとめ 論文
によると、翻訳(MT)に使えるLLMの指標は以下の通り
https://scrapbox.io/files/65cdb55772c3e800246715fd.png
GPTScore
: GPT3
GPTScore論文
GEMBA
: ChatGPT
GEMBA論文
EAprompt
: ChatGPT/davinchi-003
EAPrompt論文
-> 日本語の検証結果がなく、Few-Shotを作るのが面倒
BARTScore
: BART
ChainForge
のモデルにない