Scibench
https://scrapbox.io/files/6698daafdd68ef001c47d81a.png
SciBenchは、大学レベルの科学的問題を対象とした新しいベンチマーク。
数学、化学、物理の各領域から、大学レベルの科学的問題を厳選したデータセットが含まれている。
既存のベンチマークが、高校レベルで初歩的な代数演算に限定されているという課題を解決するために作られた。
このベンチマークは、LLMの複雑な推論能力、強力な領域知識、高度な計算能力を評価するために設計されている。
問題の例
https://scrapbox.io/files/6698dae4e40291001ce2a91b.png
論文
Web
GitHub: