LLMの数学能力
MATH は大規模かつ多分野を網羅した標準的なベンチマークであり、モデルの基本的な数学力を測るのに適しています。
AIME は少数の高難度問題を用いてモデル間の性能差を見分ける目的で使われます。
FrontierMath は未公開の高難度問題を採用し、学習データへの依存を排除した形で、より本質的な数理推論力を評価するために設計されています。
MATH は、数式推論や数学的問題解決能力を評価するために作られた代表的なベンチマークです。主に高校から競技数学レベルの問題を中心に構成されており、分野は代数・幾何・数論・確率など多岐にわたります。およそ 12,500 問が収録されており、それぞれの問題には最終解答に加えて、段階的な解法説明(ステップ解説)が付属しています。
この構成により、モデルの「最終答えの正確性」と「推論過程の妥当性」の両方を分析することが可能です。評価は最終答の一致で自動採点されることが多く、学習・評価の両面で利用されています。
一方で、MATH は広く知られたデータセットであり、多くのモデルが過去に学習データとして利用しているため、データ汚染の可能性が指摘されています。そのため、基礎的な性能比較には適していますが、最新モデル間の細かい差を測るには限界があるとされています。
AIME(American Invitational Mathematics Examination)は、実際の米国の高校数学競技試験をもとにした小規模ベンチマークです。各年に約 30 問(AIME I / II 含む)で構成され、問題の形式は整数で答える(000〜999 の3桁の数値)ものが中心です。
AIME の問題は高校上位~オリンピック入門レベルに相当し、MATH よりもやや難度が高いものが多いとされています。評価は最終整数解の一致によって行われるため、採点が明確で比較が容易です。
ただし、実際の試験問題がもとになっているため、インターネット上に解答が広く出回っており、一部の問題についてはモデルが学習中に見ている可能性もあります。問題数が少ないため、評価の分散も大きく、モデル間の性能比較では注意が必要です。
AIME は、モデルの推論精度を短いテストで素早く比較したい場合や、改良の効果を検証したい場合に適しています。
https://scrapbox.io/files/69104474a389828a15e31789.png
FrontierMath は、より高難度で新規に作成された数学問題を用いたベンチマークです。内容は学部から大学院レベルの数学を含み、専門分野として解析・代数・位相などが含まれています。問題は専門家によって作問されており、既存の公開試験問題とは異なります。
このベンチマークの特徴は、既存データとの重複を避けた設計です。つまり、モデルが事前に学習していない未公開問題を使用することで、より純粋に推論能力を評価できます。問題数は数百問程度で、難易度別に段階(Tier)に分かれています。
評価は問題内容によって異なり、自動採点が可能なものと、人手評価を要するものがあります。リーク耐性が高く、モデルの未知の問題に対する一般化能力を測る目的で利用されます。
https://scrapbox.io/files/6910444138b95bf02f59d2ba.png