Big-Bench-Hard
従来の言語モデルにとって難易度が高いタスクを集めた
BIG-Bench
の中で、特に困難な23タスクからなるベンチマーク(BBH)
これらのタスクは、先行する言語モデル評価が平均的な人間評価者を上回らなかったタスク。
BBHの多くのタスクは多段階の推論を必要とするため、BIG-Bench評価で行われたような
CoT (Chain-of-Thought)
なしの
Few-Shot
プロンプトは、言語モデルの最高のパフォーマンスと能力を大幅に過小評価する
データセット
https://github.com/suzgunmirac/BIG-Bench-Hard/tree/main/bbh
数学の問題
https://github.com/suzgunmirac/BIG-Bench-Hard/blob/main/bbh/multistep_arithmetic_two.json
GitHub:
https://github.com/suzgunmirac/BIG-Bench-Hard