MATH
12,500の難解な競技用数学問題からなる新しいデータセット
MATHの各問題は、解答の導出と説明を生成するモデルを教えるために使用できる、完全なステップバイステップの解法を持っている。
具体例
https://scrapbox.io/files/65c472b8f71f4500243c9914.png
GPT-4で、約80%の正解率
https://scrapbox.io/files/65c47326ddc34600260a523f.png
多くの知的活動は数学的な問題解決を必要とするが、このスキルは依然としてコンピュータの能力を超えている。この能力を機械学習モデルで測定するために、12,500の難解な競技用数学問題からなる新しいデータセット、MATHを紹介する。MATHの各問題は、解答の導出と説明を生成するモデルを教えるために使用できる、完全なステップバイステップの解法を持っている。将来の研究を促進し、MATHの精度を向上させるために、我々はモデルに数学の基礎を教えるのに役立つ大規模な補助事前学習データセットも提供している。MATHの精度を上げることができたとはいえ、我々の結果は、巨大なTransformerモデルを用いても、精度が比較的低いままであることを示している。さらに、このままスケーリングの傾向が続けば、単に予算とモデルパラメータ数を増やすだけでは、強力な数学的推論を達成するためには非現実的であることがわかった。Transformerのスケーリングは他のほとんどのテキストベースのタスクを自動的に解決しているが、スケーリングは現在のところMATHを解決していない。