LLM-as-a-Judge
記事サーベイページ
LLM-as-a-Judge - LLMによるLLMの評価とその評価の評価について
良いサーベイ、人間の評価との近さの指標
LLMプロダクト開発における独自評価基準とデータセットの作り方の考察
LLMの出力を評価する方法についてまとめてみた #MLflow - Qiita
Criteria & Rubric 与えて評価するやつ
2024/9/10 Generative AI Evaluation Service 見る みたいなやつの元ってどこ?
2306.05685 Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
LLM-as-a-Judge のソースここ?
GPT-4などの強力なLLM判定は、人間の評価と80%以上の一致率を示しました。これは人間同士の一致率と同等のレベルです。MT-benchデータセットを用いた実験では、GPT-4の判定と人間の専門家の評価の間で、タイを含むケースで66%、タイを除外したケースで85%の一致率を達成しました。
MT-Bench
自身のモデルの出力を高く評価しがち
MLflow LLM Evaluation
生成AIによる自動評価(LLM-as-a-Judge)のメリットと最新手法をご紹介 | DOORS DX
2404.12272 Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences
EvalGen、ユーザー評価で LLM の評価基準を調整
Evaluation | 🦜️🔗 LangChain
Evaluation Quick Start | 🦜️🛠️ LangSmith
LangSmith 使えたら良いが、ケチなので LangChain 使って Vertex AI Experiments に出力送るぐらいかねえ
Prometheus2
LLM を評価する LLM、Mistral-Instruct ベース
2405.01535 Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models
prometheus-eval/prometheus-eval: Evaluate your LLM's response with Prometheus and GPT4 💯
Paper page - Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models
How to Evaluate, Compare, and Optimize LLM Systems | llm-eval-sweep – Weights & Biases
The Definitive LLM-as-a-Judge for LLM Evaluation Guide - Confident AI
DeepEval の宣伝だけどいい感じにまとまっている
長い出力を高く評価しがち、バイナリは1-5点の評価にはよいが細かいスケールになると信頼性下がる、例を与える順番によるポジションバイアス
生成AIの活用パターンと継続的評価 - Speaker Deck
自動化するLLMシステムの品質管理: LLM-as-a-judge の作り方 - Gaudiy Tech Blog
評価、評価の評価データセット
合成データ作る時の話
Creating a LLM-as-a-Judge That Drives Business Results – Hamel's Blog
いい資料、5段階じゃなくて合格か不合格をやれという話
https://gyazo.com/6b2ed05e79d03739cd063760a8777792
Evaluating the Effectiveness of LLM-Evaluators (aka LLM-as-Judge)
Frequently Asked Questions (And Answers) About AI Evals – Hamel’s Blog
同じ人
The Rise of LLMOps - Speaker Deck
Model-Centric, Data-Centric, Eval-Centric
LLMOps : ΔMLOps - Speaker Deck
「初回の開発とデプロイ以後、開発が迷走もしくは停止することが多い」おっしゃるとおり
LLMOps: Eval-Centric を前提としたMLOps - Speaker Deck
Best Practices For Creating Your LLM-as-a-Judge - Galileo AI
Technical Report: 自動評価 VS 人手評価 | ichikara-test – Weights & Biases
人手評価と LLM 評価で乖離しているサンプル
人間の評価との近さ
LLMによるLLMの評価とその評価の評価について
Cohen's kappa - Wikipedia 偶然の一致(期待値のことやね)を考慮
カッパ係数
cohen_kappa_score — scikit-learn 1.5.2 documentation}
良さそうかつ広く使われている
不一致度に重みをつける Weighted Cohen's kappa もある
1~5点評価で、AさんBさんで (5,4) を付けた時と (5,1) をつけたときで同じ不一致でも程度が異なる
Weighted Cohen's Kappa • Simply explained - DATAtab
重み付きカッパ係数―順序尺度の場合のカッパ係数 | ブログ | 統計WEB
sklearn で weights='quadratic' で使えるが、ラベルが数値である必要がある
ピアソン相関係数
ピアソンの積率相関係数 - Wikipedia よくいう相関係数か
スピアマン相関係数
スピアマンの順位相関係数 - Wikipedia 順位
#LLM