Big-bench
BIG-bench (Beyond the Imitation Game benchmark)
単なる言語理解や生成だけでなく、推論、知識の応用、創造性、感情理解など、幅広いスキルを測定するタスクを含む。
概要
言語モデルは、規模が大きくなるにつれて、量的な向上と新たな質的能力の両方を示す。その潜在的な変革の影響にもかかわらず、これらの新たな能力はまだ十分に解明されていない。将来の研究に情報を提供し、破壊的な新しいモデルの能力に備え、社会的に有害な影響を改善するためには、言語モデルの現在および近い将来の能力と限界を理解することが不可欠である。この課題に取り組むため、Beyond the Imitation Gameベンチマーク(BIG-bench)を紹介する。BIG-benchは現在204のタスクから構成されており、132機関の450人の著者によって寄稿されている。タスクのトピックは多様で、言語学、児童発達、数学、常識的推論、生物学、物理学、社会的バイアス、ソフトウェア開発、その他から問題を集めている。BIG-benchは、現在の言語モデルの能力を超えていると考えられるタスクに焦点を当てています。BIG-benchでは、数百万から数千億のパラメータに及ぶモデルサイズにわたって、OpenAIのGPTモデル、Google内部の密な変換器アーキテクチャ、およびSwitchスタイルの疎な変換器の動作を評価します。さらに、強力なベースラインを提供するために、人間の専門家評価者チームがすべてのタスクを実施しました。その結果、モデルの性能とキャリブレーションはともにスケールとともに向上するが、絶対値では(また評価者の性能と比較した場合)劣ること、性能はモデルクラス間で著しく類似しているが、スパース性による利点があること、徐々に予測通りに向上するタスクには、一般に大規模な知識または暗記コンポーネントが関与しているのに対し、重要なスケールで「ブレークスルー」動作を示すタスクには、多くの場合、複数のステップまたはコンポーネントが関与しているか、メトリクスがもろいこと、社会的バイアスは一般に、コンテキストが曖昧な設定ではスケールとともに増大するが、これはプロンプトによって改善できること、などがわかった。