Big-Bench-Hard

従来の言語モデルにとって難易度が高いタスクを集めたBIG-Benchの中で、特に困難な23タスクからなるベンチマーク(BBH)

これらのタスクは、先行する言語モデル評価が平均的な人間評価者を上回らなかったタスク。

BBHの多くのタスクは多段階の推論を必要とするため、BIG-Bench評価で行われたようなCoT (Chain-of-Thought)なしのFew-Shotプロンプトは、言語モデルの最高のパフォーマンスと能力を大幅に過小評価する