LLMの評価

A Survey on Evaluation of Large Language Models

Evaluating Large Language Models: A Comprehensive Survey

leader board

LLM arena

Nejumi

AlpacaEval Leaderboard

最強のツール「LangSmith」が登場した話【Python / LangChain】

LLM・プロンプトの評価・テストフレームワークについてまとめてみた

LLM評価の落とし穴~開発者目線で気をつけるポイント~

LLMの性能、自動評価はだいたい参考にしかならないし、下流タスクはLLMにとって簡単すぎると思う。理想的には、対話システムに組み込んで、”どの属性の人間が何分間飽きないで会話し続けられるか”を大域的人測定する必要あるんじゃ無いかな〜と思ってますが、評価が大変なのでやらないですよね〜

ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs

LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解説

LLMアプリをRagasで評価して、Langfuseで可視化しよう！

LLM-as-a-Judge をサーベイする

How to Get Your LLM to Generate Challenging Problems for Evaluation

How to Get Your LLM to Generate Challenging Problems for Evaluation