LLMの評価
LLMOps
MLOps
大規模言語モデル入門本
LLMOps
LLM as a judge
A Survey on Evaluation of Large Language Models
https://arxiv.org/abs/2307.03109
Evaluating Large Language Models: A Comprehensive Survey
https://arxiv.org/abs/2310.19736
leader board
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
LLM arena
https://lmsys.org/blog/2023-05-03-arena/
Nejumi
https://wandb.ai/wandb/LLM_evaluation_Japan/reports/Nejumi-LLM---Vmlldzo0NTUzMDE2?accessToken=u1ttt89al8oo5p5j12eq3nldxh0378os9qjjh14ha1yg88nvs5irmuao044b6eqa
AlpacaEval Leaderboard
https://tatsu-lab.github.io/alpaca_eval/
最強のツール「LangSmith」が登場した話【Python / LangChain】
https://zenn.dev/umi_mori/articles/langchain-langsmith
LLM・プロンプトの評価・テストフレームワークについてまとめてみた
https://zenn.dev/pomcho555/articles/8e42f0a4ce39eb
LLM評価の落とし穴~開発者目線で気をつけるポイント~
https://speakerdeck.com/rishigami/llmping-jia-noluo-tosixue-kai-fa-zhe-mu-xian-deqi-wotukerupointo?slide=3
https://x.com/overlast/status/1833402455742394705
LLMの性能、自動評価はだいたい参考にしかならないし、下流タスクはLLMにとって簡単すぎると思う。理想的には、対話システムに組み込んで、”どの属性の人間が何分間飽きないで会話し続けられるか”を大域的人測定する必要あるんじゃ無いかな〜と思ってますが、評価が大変なのでやらないですよね〜
ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs
https://arxiv.org/abs/2410.12405
LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解説
https://zenn.dev/pharmax/articles/2d07bf0498e212
LLMアプリをRagasで評価して、Langfuseで可視化しよう!
https://speakerdeck.com/minorun365/llmapuriworagasdeping-jia-site-langfusedeke-shi-hua-siyou
LLM-as-a-Judge をサーベイする
https://note.com/negi3soaya/n/n4e5640bcb284
How to Get Your LLM to Generate Challenging Problems for Evaluation
https://arxiv.org/abs/2502.14678
How to Get Your LLM to Generate Challenging Problems for Evaluation
https://arxiv.org/abs/2502.14678