LLMの評価まとめ
https://scrapbox.io/files/65cee8e9b2512400288dd7e3.png
LLMの評価まとめ論文
What to evaluate: 何を?
自然言語処理(NLP)、倫理/信頼性、自然科学、医療、教育....
NLPタスクを評価する方法まとめ
Where to evaluate: どこで?
一般タスクのベンチマーク
Big-bench、MMLU
Chatbot Arena、MT-bench
PromptBench
特定のタスクのためのベンチマーク
医療(MultiMedQA)、世界知識(FreshQA)
倫理的配慮(TrustGPT)、感情反応(EmotionBench)
セキュリティ(SafetyBench)、数学(MATH)
日本度で作られたベンチマーク
日本語におけるLLMの評価指標
How to evaluate: どのように?
自動評価
人間評価