2024/11 ELYZA-tasks-100 を解いて評価する
elyza/ELYZA-tasks-100 · Datasets at Hugging Face
Weave と Elyza-tasks-100 で ローカルLLMを評価する|npaka
elyza/ELYZA-tasks-100@main - baseline/scripts/gemini_pro.py
baseline/humaneval/guideline.md · elyza/ELYZA-tasks-100 at main
ELYZA-tasks-100 評価結果シート - Google スプレッドシート
参考評価プロンプト
https://cloud.google.com/vertex-ai/generative-ai/docs/models/metrics-templates#pointwise_text_quality
Google Colab