評価を実行する
https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/run-evaluation?hl=ja
https://cloud.google.com/vertex-ai/generative-ai/docs/models/run-evaluation?hl=ja
Vertex AI SDK for Python の Gen AI Evaluation モジュールを使用すると、Gen AI Evaluation Service API を使用して生成言語モデルとアプリケーションをプログラムで評価できます。
google-cloud-aiplatform
extraとしてevaluation指定
サービス アカウントは、Gen AI Evaluation Service がモデルベースの評価指標の Vertex AI の Gemini API から予測を取得するために使用されます。このサービス アカウントは、Gen AI Evaluation Service への最初のリクエストで自動的にプロビジョニングされます。
code:python
eval_dataset = client.evals.run_inference(
model="gemini-2.5-flash",
src="gs://vertex-evaluation-llm-dataset-us-central1/genai_eval_sdk/test_prompts.jsonl",
)
client.evals.evaluate()
以下は古くなっていそう
評価を実行する
EvalTask
EvalTask は Vertex AI Experiments と統合されており、評価の実行ごとの構成と結果を追跡できます。
モデルベースの指標を使用して評価を実行する
計算ベースの指標を使用して評価を実行する
レート制限と割り当てを増やしてモデルベースの評価を実行する
モデルベースの指標の 1 回の評価リクエストで、Vertex AI の Gemini API に対して基盤となるリクエストが複数回発生し、ジャッジモデルの gemini-1.5-pro 割り当てが消費されます。
ジャッジモデル gemini-1.5-pro へのリクエストと、モデルベースの指標の Gen AI Evaluation Service へのリクエストの両方