LLM-as-a-Judge
記事サーベイページ
良いサーベイ、人間の評価との近さの指標
Criteria & Rubric 与えて評価するやつ
LLM-as-a-Judge のソースここ?
GPT-4などの強力なLLM判定は、人間の評価と80%以上の一致率を示しました。これは人間同士の一致率と同等のレベルです。MT-benchデータセットを用いた実験では、GPT-4の判定と人間の専門家の評価の間で、タイを含むケースで66%、タイを除外したケースで85%の一致率を達成しました。
自身のモデルの出力を高く評価しがち
EvalGen、ユーザー評価で LLM の評価基準を調整
Prometheus2
LLM を評価する LLM、Mistral-Instruct ベース
長い出力を高く評価しがち、バイナリは1-5点の評価にはよいが細かいスケールになると信頼性下がる、例を与える順番によるポジションバイアス
評価、評価の評価データセット
合成データ作る時の話
いい資料、5段階じゃなくて合格か不合格をやれという話
https://gyazo.com/6b2ed05e79d03739cd063760a8777792
Model-Centric, Data-Centric, Eval-Centric
「初回の開発とデプロイ以後、開発が迷走もしくは停止することが多い」おっしゃるとおり
人間の評価との近さ
良さそうかつ広く使われている
不一致度に重みをつける Weighted Cohen's kappa もある
1~5点評価で、AさんBさんで (5,4) を付けた時と (5,1) をつけたときで同じ不一致でも程度が異なる
sklearn で weights='quadratic' で使えるが、ラベルが数値である必要がある
ピアソン相関係数
スピアマン相関係数