Manus - 西尾泰和の外部脳

Manus

https://gyazo.com/c126c852a451f3cfc3afae5d4d25999f

2025-05-03

使えるようになったけど何に使ったらいいのかよくわかってない

「GAIAベンチマークでOpenAI Deep Researchを超えた」という文言が一人歩きしているが意味がわからん

GAIA は、実世界の問題解決における汎用型AIアシスタントを評価するためのベンチマークです。

o3.icon既存の MMLU や ARC など「難問クイズ型」の逆を行き、“人間なら簡単” な実務的課題でギャップを測る点が特徴

評価指標

Accuracy（正答率）: 質問ごとに完全一致か否かで採点

コスト指標: API 料金など実行コストも併記し、性能-コスト曲線を提示

「賢いけど雑なので時々ミスをするエージェント」と「賢くないがミスせず答えのあるタスクをきちんとこなすエージェント」の後者を評価するベンチマーク

ハルシネーションを増やしてでも創発を増やそうとしているOpenAIとは狙ってるものが違うね

まあ社会を支える安定的部品になるにはミスをしないことは重要