M3Exam
https://scrapbox.io/files/6642e822c08801001c532d60.png
多言語、マルチモーダル、マルチレベルのコンテクストでLLMを評価するための、実際の公式試験問題から作成された新しいベンチマーク。
9つの多様な言語で12,317の質問を含み、約23%の質問が解決に画像処理を必要とする。
特徴
多言語性
複数の国からの質問を含み、強力な多言語能力と文化的知識が必要
マルチモーダル
多くの試験問題のマルチモーダルな理解力をテスト
テキスト、画像、音声、ビデオなど、さまざまな種類のデータを同時に処理する必要がある
多レベル構造
3つの重要な教育期間(初等教育、中等教育、高等教育)からの試験
背景
様々な自然言語処理モデルを評価するためのベンチマークが存在するにもかかわらず、我々は、大規模言語モデル(LLM)の一般的な知能を評価するためには、人間の試験がより適した手段であると主張します。
なぜなら、人間の試験は本質的に、言語理解、ドメイン知識、問題解決能力など、はるかに広範な能力を要求するからです。
💡確かに、LLMの評価するんだったら、人間と同じような試験させた方がいいよね。それはつまり、多言語になるし、当然グラフとか図とか入ってくるし、選択肢問題も入ってくる。
結果
https://scrapbox.io/files/6642e9f4a14a34001cc20550.png
参考