評価を実行する - nikkie-memos

評価を実行する

https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/run-evaluation?hl=ja

https://cloud.google.com/vertex-ai/generative-ai/docs/models/run-evaluation?hl=ja

Vertex AI SDK for Python の Gen AI Evaluation モジュールを使用すると、Gen AI Evaluation Service API を使用して生成言語モデルとアプリケーションをプログラムで評価できます。

google-cloud-aiplatform

extraとしてevaluation指定

サービスアカウントは、Gen AI Evaluation Service がモデルベースの評価指標の Vertex AI の Gemini API から予測を取得するために使用されます。このサービスアカウントは、Gen AI Evaluation Service への最初のリクエストで自動的にプロビジョニングされます。

code:python

eval_dataset = client.evals.run_inference(

model="gemini-2.5-flash",

src="gs://vertex-evaluation-llm-dataset-us-central1/genai_eval_sdk/test_prompts.jsonl",

)

client.evals.evaluate()

以下は古くなっていそう

評価を実行する

EvalTask

EvalTask は Vertex AI Experiments と統合されており、評価の実行ごとの構成と結果を追跡できます。

モデルベースの指標を使用して評価を実行する

計算ベースの指標を使用して評価を実行する

レート制限と割り当てを増やしてモデルベースの評価を実行する

モデルベースの指標の 1 回の評価リクエストで、Vertex AI の Gemini API に対して基盤となるリクエストが複数回発生し、ジャッジモデルの gemini-1.5-pro 割り当てが消費されます。

ジャッジモデル gemini-1.5-pro へのリクエストと、モデルベースの指標の Gen AI Evaluation Service へのリクエストの両方