Manus
https://gyazo.com/c126c852a451f3cfc3afae5d4d25999f
2025-05-03
使えるようになったけど何に使ったらいいのかよくわかってない
「GAIAベンチマークでOpenAI Deep Researchを超えた」という文言が一人歩きしているが意味がわからん
GAIA は、実世界の問題解決における汎用型AIアシスタントを評価するためのベンチマークです。
o3.icon既存の MMLU や ARC など「難問クイズ型」の逆を行き、“人間なら簡単” な実務的課題でギャップを測る点が特徴
評価指標
Accuracy(正答率): 質問ごとに完全一致か否かで採点
コスト指標: API 料金など実行コストも併記し、性能-コスト曲線を提示
「賢いけど雑なので時々ミスをするエージェント」と「賢くないがミスせず答えのあるタスクをきちんとこなすエージェント」の後者を評価するベンチマーク
ハルシネーションを増やしてでも創発を増やそうとしているOpenAIとは狙ってるものが違うね
まあ社会を支える安定的部品になるにはミスをしないことは重要