数学推論タスクをどう評価するか?
データセット
選択肢としては複数考えられる。
数学推論タスクを検証する学年別問題まとめのように、小中高別の数学の問題で検証する方法
日本語データセットの数学推論問題
JMMLU
https://github.com/nlp-waseda/JMMLU/tree/main/JMMLU
elementary, highschool, colledgeの学年別の問題が用意されている
https://scrapbox.io/files/65cf0e76832e620024c2b10a.png
https://scrapbox.io/files/65cf0ea0a7822400255876d4.png
https://scrapbox.io/files/65cf0e92d798420026455abf.png
MGSM
https://github.com/google-research/url-nlp/blob/main/mgsm/mgsm_ja.tsv
GSM8Kから250の問題を手動で翻訳した、小学校レベルの算数の問題
https://scrapbox.io/files/65cf77936446fb0024ce5530.png
mawps
https://github.com/nlp-waseda/chain-of-thought-ja-dataset
LLM-JP-Evalの一部で、四則演算の簡単な小学生レベルの数学の問題
AddSub、SingleOp、MultiArith、SingleEqの4種類から250問ずつ選定されている
https://scrapbox.io/files/65cf78411357590025c8c26f.png
使い分け
ChainForgeで小学校レベルの問題であるMawpsを、GPT-3.5-Turboで25門解かせたところ、96%の正解率
小学生レベルだと簡単すぎると考えられる
JMMLUだけ4択問題となっており、難易度がhighscool, colledgeレベルとかなり難しい問題
MGSMとmawpsは、小学校レベルの数学の問題で、答えを生成させ回答と比較させる問題
プロンプトテンプレート
テンプレートは、JMMLUの4択問題を使う場合以下のようにする
code:markdown
与えられた選択肢の中から、最適な答えを選んでください。
質問:{question}
選択肢:
- {choice0}
- {choice1}
- {choice2}
- {choice3}
回答:
それ以外は、以下のようにする
code:markdown
質問:{question}
回答: