Evals
GitHub : https://github.com/openai/evals
Evalsは、OpenAIモデルを評価するためのフレームワークであり、ベンチマークのオープンソースレジストリでもある。
データセットを使ってプロンプトを生成する。
OpenAIモデルが提供する補完の品質を測定し
異なるデータセットやモデル間で性能を比較することができます。
品質が高い(とは?)ContributeするとGPT-4 APIの優先アクセス権がもらえるらしい
プロンプトエンジニアリングを加速する、AI モデルの性能評価フレームワーク「OpenAI Evals」を試してみた | DevelopersIO
OpenAI の PlayGround でトライアンドエラーで行っていた作業が、eval を作成してコード化することで何度も実行できるようになる点に利点を感じています。
Evals を利用することで、プロンプトで与える情報量とモデルの精度の検証や、新たなモデルが公開された時に既存のプロンプトが新しいモデルでどのように動くのかを、再現性をもって検証することが可能になります。
system promptとuser promptを与えた時に何が返ってくるかのテストをかける基素.icon
LLMベンチマーク