評価指標を定義する
https://cloud.google.com/vertex-ai/generative-ai/docs/models/determine-eval?hl=ja
Gen AI Evaluation Serviceでは、主に 2 種類の指標が提供されます。
モデルベース
判定モデルを使用し、記述的な評価基準に基づいてパフォーマンスを評価
(理解:gemini-1.5-proが判定)
計算ベース
数式を使用してパフォーマンスを評価
開始するには、データセットを準備すると評価を実行するをご覧ください。
モデルベースの指標を定義する
モデルベースの評価では、大規模言語モデル(LLM)を判定モデルとして使用し、候補モデルの出力を評価します。
判定モデルは、品質を保証するために人間の評価者によって調整されています。
CoT(過程)も評価できるらしい
ポイントワイズ評価とペアワイズ評価のどちらかを選択する
ポイントワイズ評価
1 つのモデルを評価し、基準に基づいてスコアを生成する
ペアワイズ評価
2 つのモデルを対比し、基準に基づいて優れているほうを選択する
計算ベースの指標
tool useも評価できるらしい
生成タスクのベースライン評価の品質
生成 AI モデルの出力を評価する場合、その評価プロセスは本質的に主観的であり、評価の品質は特定のタスクと評価基準によって異なる可能性があることに注意してください。
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
Learning to summarize from human feedback
Vertex AI の GenAI でLLM-as-a-judge できるしカスタムメトリクスも作れるじゃん!