翻訳タスクを対象としたLLMの評価指標 - evergreens

翻訳タスクを対象としたLLMの評価指標

NLG評価* LLM総まとめ論文によると、翻訳(MT)に使えるLLMの指標は以下の通り

https://scrapbox.io/files/65cdb55772c3e800246715fd.png

GEMBA: ChatGPT

EAprompt: ChatGPT/davinchi-003

EAPrompt論文 -> 日本語の検証結果がなく、Few-Shotを作るのが面倒

BARTScore: BART

ChainForgeのモデルにない