LLMの評価
A Survey on Evaluation of Large Language Models
Evaluating Large Language Models: A Comprehensive Survey
leader board
LLM arena
Nejumi
AlpacaEval Leaderboard
最強のツール「LangSmith」が登場した話【Python / LangChain】
LLM・プロンプトの評価・テストフレームワークについてまとめてみた
LLM評価の落とし穴~開発者目線で気をつけるポイント~
LLMの性能、自動評価はだいたい参考にしかならないし、下流タスクはLLMにとって簡単すぎると思う。理想的には、対話システムに組み込んで、”どの属性の人間が何分間飽きないで会話し続けられるか”を大域的人測定する必要あるんじゃ無いかな〜と思ってますが、評価が大変なのでやらないですよね〜
ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs
LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解説
LLMアプリをRagasで評価して、Langfuseで可視化しよう!