LLMの評価まとめ
https://scrapbox.io/files/65cee8e9b2512400288dd7e3.png
What to evaluate: 何を?
自然言語処理(NLP)、倫理/信頼性、自然科学、医療、教育.... Where to evaluate: どこで?
一般タスクのベンチマーク
特定のタスクのためのベンチマーク
医療(MultiMedQA)、世界知識(FreshQA)
倫理的配慮(TrustGPT)、感情反応(EmotionBench)
セキュリティ(SafetyBench)、数学(MATH) 日本度で作られたベンチマーク
How to evaluate: どのように?
自動評価
人間評価