GAIA
GAIAは一般的なAIアシスタントのベンチマーク
最近のLLMはWeb browsingしたり、画像認識したり、さまざまなことができる。
ただ従来のベンチマークは、closedな限定的な環境のもののため、きちんと能力を評価できていない。
この課題を解決すべく、より実世界に即した評価をするためにできたのが、GAIA
GAIAは、466個の質問・回答と、関連する設計方法論で構成されてい流。
これらの質問は作成が比較的簡単で、AIモデルにとっては挑戦的
ユニークで事実に基づく答えを持っているため、簡単かつ堅牢な自動評価が可能。
プラグインを活用しても、GPT-4は最も簡単なタスクであっても30%の成功率を超えることができず、最も難しいタスクでは0%という結果を示している。
一方、人間の平均成功率は92%。
すなわち、GAIAで高い性能を達成することができれば、次世代のAIモデルに向けた重要なマイルストーンとして評価される。
問題の例
https://scrapbox.io/files/6698dc97f0c130001c75e8c7.png
このタスクを完了するには、推論、マルチモダリティ処理、またはツールの使用習熟などの基本的な能力が必要。
解答は曖昧さがなく、トレーニングデータのプレーンテキストにはないデザイン
一部の問題には、実際の使用例を反映した画像などの追加証拠が付属しており、問題をよりよくコントロールすることができる。
解くのに必要な能力
https://scrapbox.io/files/6698dd2a024aa2001dc9a8a9.png
正解率
https://scrapbox.io/files/6698dd9c3338cb001cb9e5bc.png
level 4はほとんどAIは解けてない
論文
HuggingFace