GDPval
https://openai.com/ja-JP/index/gdpval/
GDPval は、さまざまな職種と業種の経験豊富な専門家による実世界の知識作業から直接抽出したタスクに対して、モデルのパフォーマンスを測定します。
以前のこのような評価軸の発展版
MMLU(数十種類の課題にわたる試験形式の質問)のように伝統的な学術的ベンチマークから、SWE bench(ソフトウェアエンジニアリングのバグ修正タスク)、MLE-Bench(モデルの学習や分析などの機械学習エンジニアリングタスク)、Paper-Bench(研究論文での科学的な推論と評論)のような応用的な評価、さらに最近では、SWE-Lancer(実際の支払いに基づくフリーランスのソフトウェアエンジニアリングプロジェクト)のような市場ベースの評価へと移行しています。