LLMベンチマーク
数学,科学,推論
コーディング
マルチリンガル
人手で評価
Made this plot for an upcoming talk---crazy how quickly benchmarks get saturated these days. Looking forward to seeing how things play out for Humanity’s Last Exam! https://gyazo.com/ebd19348e19ca8476324f549567c0386