数学推論タスクをどう評価するか?
データセット
選択肢としては複数考えられる。
日本語データセットの数学推論問題
elementary, highschool, colledgeの学年別の問題が用意されている
https://scrapbox.io/files/65cf0e76832e620024c2b10a.png
https://scrapbox.io/files/65cf0ea0a7822400255876d4.png
https://scrapbox.io/files/65cf0e92d798420026455abf.png
MGSM
GSM8Kから250の問題を手動で翻訳した、小学校レベルの算数の問題 https://scrapbox.io/files/65cf77936446fb0024ce5530.png
mawps
https://scrapbox.io/files/65cf78411357590025c8c26f.png
使い分け
ChainForgeで小学校レベルの問題であるMawpsを、GPT-3.5-Turboで25門解かせたところ、96%の正解率
小学生レベルだと簡単すぎると考えられる
JMMLUだけ4択問題となっており、難易度がhighscool, colledgeレベルとかなり難しい問題 MGSMとmawpsは、小学校レベルの数学の問題で、答えを生成させ回答と比較させる問題
プロンプトテンプレート
テンプレートは、JMMLUの4択問題を使う場合以下のようにする code:markdown
与えられた選択肢の中から、最適な答えを選んでください。
質問:{question}
選択肢:
- {choice0}
- {choice1}
- {choice2}
- {choice3}
回答:
それ以外は、以下のようにする
code:markdown
質問:{question}
回答: