LLMの評価まとめ

https://scrapbox.io/files/65cee8e9b2512400288dd7e3.png

What to evaluate: 何を？

自然言語処理(NLP)、倫理/信頼性、自然科学、医療、教育....

Where to evaluate: どこで？

一般タスクのベンチマーク

特定のタスクのためのベンチマーク

医療(MultiMedQA)、世界知識(FreshQA)

倫理的配慮(TrustGPT)、感情反応(EmotionBench)

セキュリティ(SafetyBench)、数学(MATH)

日本度で作られたベンチマーク

How to evaluate: どのように？

自動評価

人間評価