評価を実行する
extraとしてevaluation指定
サービス アカウントは、Gen AI Evaluation Service がモデルベースの評価指標の Vertex AI の Gemini API から予測を取得するために使用されます。このサービス アカウントは、Gen AI Evaluation Service への最初のリクエストで自動的にプロビジョニングされます。
code:python
eval_dataset = client.evals.run_inference(
model="gemini-2.5-flash",
src="gs://vertex-evaluation-llm-dataset-us-central1/genai_eval_sdk/test_prompts.jsonl",
)
client.evals.evaluate()
以下は古くなっていそう
評価を実行する
EvalTask
EvalTask は Vertex AI Experiments と統合されており、評価の実行ごとの構成と結果を追跡できます。
モデルベースの指標を使用して評価を実行する
計算ベースの指標を使用して評価を実行する
レート制限と割り当てを増やしてモデルベースの評価を実行する
モデルベースの指標の 1 回の評価リクエストで、Vertex AI の Gemini API に対して基盤となるリクエストが複数回発生し、ジャッジモデルの gemini-1.5-pro 割り当てが消費されます。
ジャッジモデル gemini-1.5-pro へのリクエストと、モデルベースの指標の Gen AI Evaluation Service へのリクエストの両方