MGSM
250の日本語の数学の単語問題から構成され、タスクは問題に対する正しい整数解を得ること。
このデータセットには、思考連鎖推論を誘導するためにプロンプトに含まれる例題の解法が段階的に含まれている。
このタスクはかなり難しい。
gpt3/text-davinci-002は4ショットで26%の精度を達成した。このデータセットは人間が日本語に翻訳したものであるが、それでも、各世代のプロンプトに含まれる数ショットの例題を含め、いくつかのエラーが発生する。
論文
GSM8Kデータセットから250の小学校の数学問題を手動で10の類型的に多様な言語に翻訳することにより、多言語グレードスクール数学(MGSM)ベンチマークを導入しました。モデルのスケールが大きくなるにつれて、MGSM問題を連鎖思考プロンプトを介して解決する能力が現れること、そしてモデルがベンガル語やスワヒリ語のような代表性の低い言語でさえも、顕著に強力な多言語推論能力を持っていることを発見しました。