LLM-as-a-Judge

記事サーベイページ

LLM-as-a-Judge - LLMによるLLMの評価とその評価の評価について

良いサーベイ、人間の評価との近さの指標

LLMプロダクト開発における独自評価基準とデータセットの作り方の考察

LLMの出力を評価する方法についてまとめてみた #MLflow - Qiita

Criteria & Rubric 与えて評価するやつ

2024/9/10 Generative AI Evaluation Service 見るみたいなやつの元ってどこ?

2306.05685 Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

LLM-as-a-Judge のソースここ?

GPT-4などの強力なLLM判定は、人間の評価と80%以上の一致率を示しました。これは人間同士の一致率と同等のレベルです。MT-benchデータセットを用いた実験では、GPT-4の判定と人間の専門家の評価の間で、タイを含むケースで66%、タイを除外したケースで85%の一致率を達成しました。

MT-Bench

自身のモデルの出力を高く評価しがち

MLflow LLM Evaluation

生成AIによる自動評価（LLM-as-a-Judge）のメリットと最新手法をご紹介 | DOORS DX

2404.12272 Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences

EvalGen、ユーザー評価で LLM の評価基準を調整

Evaluation | 🦜️🔗 LangChain

Evaluation Quick Start | 🦜️🛠️ LangSmith

LangSmith 使えたら良いが、ケチなので LangChain 使って Vertex AI Experiments に出力送るぐらいかねえ

Prometheus2

LLM を評価する LLM、Mistral-Instruct ベース

2405.01535 Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

prometheus-eval/prometheus-eval: Evaluate your LLM's response with Prometheus and GPT4 💯

Paper page - Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

How to Evaluate, Compare, and Optimize LLM Systems | llm-eval-sweep – Weights & Biases

The Definitive LLM-as-a-Judge for LLM Evaluation Guide - Confident AI

DeepEval の宣伝だけどいい感じにまとまっている

長い出力を高く評価しがち、バイナリは1-5点の評価にはよいが細かいスケールになると信頼性下がる、例を与える順番によるポジションバイアス

生成AIの活用パターンと継続的評価 - Speaker Deck

自動化するLLMシステムの品質管理: LLM-as-a-judge の作り方 - Gaudiy Tech Blog

評価、評価の評価データセット

合成データ作る時の話

Creating a LLM-as-a-Judge That Drives Business Results – Hamel's Blog

いい資料、5段階じゃなくて合格か不合格をやれという話

https://gyazo.com/6b2ed05e79d03739cd063760a8777792

Evaluating the Effectiveness of LLM-Evaluators (aka LLM-as-Judge)

The Rise of LLMOps - Speaker Deck

Model-Centric, Data-Centric, Eval-Centric

LLMOps : ΔMLOps - Speaker Deck

「初回の開発とデプロイ以後、開発が迷走もしくは停止することが多い」おっしゃるとおり

LLMOps: Eval-Centric を前提としたMLOps - Speaker Deck

Best Practices For Creating Your LLM-as-a-Judge - Galileo AI

人間の評価との近さ

LLMによるLLMの評価とその評価の評価について

Cohen's kappa - Wikipedia 偶然の一致(期待値のことやね)を考慮

カッパ係数

cohen_kappa_score — scikit-learn 1.5.2 documentation}

良さそうかつ広く使われている

不一致度に重みをつける Weighted Cohen's kappa もある

1~5点評価で、AさんBさんで (5,4) を付けた時と (5,1) をつけたときで同じ不一致でも程度が異なる

Weighted Cohen's Kappa • Simply explained - DATAtab

重み付きカッパ係数―順序尺度の場合のカッパ係数 | ブログ | 統計WEB

sklearn で weights='quadratic' で使えるが、ラベルが数値である必要がある

ピアソン相関係数

ピアソンの積率相関係数 - Wikipedia よくいう相関係数か

スピアマン相関係数

スピアマンの順位相関係数 - Wikipedia 順位

#LLM