Gemini,GPT,Claudeの比較(2025年12月12日)
概要
GPT-5.2のリリース,Claude Opus 4.5のリリース,Gemini 3のリリースに書かれていたベンチマーク結果の比較
簡易的な分析結果
Geminiは総合的に優れている
GPTは数学・抽象推論・プログラム解析に優れている
Claudeはツール利用や実務課題に優れている
データ
Spreadsheet
https://docs.google.com/spreadsheets/d/1ylts4g_YCCS5qU8xiBQwGXIzVesC00L1N2yHfbUb8p0/edit?usp=sharing
情報源
Introducing Claude Opus 4.5 \ Anthropic
GPT-5.2 が登場 | OpenAI
Gemini 3: Introducing the latest Gemini AI model from Google
https://scrapbox.io/files/693bb0341ef7600801f03df5.png
https://scrapbox.io/files/693bb04e96e4c6f540c5fcce.png
https://scrapbox.io/files/693bb0620621f22c26968a48.png
分析(ChatGPT)
2025/12/12 15:12tomiokario.icon
念の為,GeminiをA系,GPTをB系,ClaudeをC系としてGPT-5.2に表形式のデータを渡しています.
番号は左から順に1,2,3です.
総括
A 系:幅広い領域に高水準で対応できる「総合力に優れたモデル」。
B 系):数学・抽象推論・コード解析に特化した「理論・推論のエキスパート」。
C 系:ツール・ PC 操作・業務タスクに強い「実務エージェント型モデル」。
A 系の特徴(Gemini)
強み
A 系は、知識・推論・マルチモーダル理解において高い総合力を発揮するモデル群です。科学知識、一般常識、文書読解といった幅広い領域で安定した性能を示し、加えて画像・動画・画面情報の理解や OCR など、視覚的情報を含むタスクにも強みがあります。
また、コード生成や修正、競技的なプログラミングにも堅調な成績を残しており、エージェント的な長期タスクにおいても一定以上の成果を示すなど、総合的な適応力が際立っています。
弱み
極めて高度な抽象推論や最難度の数学問題に特化した場面では、B 系の特化モデルに後れを取る傾向があります。また、実システムや OS 操作など、細やかな手順を要するエージェントタスクでは、C 系のモデルに比べて専用性がやや低くなる場合があります。
B 系の特徴(GPT)
強み
B 系モデル、特に B-1 は、数学・抽象推論・プログラム解析に極めて強い特化型モデルとして位置付けられます。数学コンテスト問題や抽象的なパターン推論においては全モデル中でも最上位に位置する成績を示しており、学術・理論的な課題に特に適しています。
また、ソフトウェアエンジニアリングタスクにおいても高い性能を示し、コード修正やバグ検出などの正確さが求められる場面で力を発揮します。
弱み
マルチモーダル処理や実システム操作、ツール連携といった領域にはあまり対応しておらず、適用範囲が比較的限定されています。
特にB-2 は、特に難問領域や知識労働タスクにおいて性能の落ち込みが目立つため、用途を選ぶ必要があります。
C 系の特徴(Claude)
強み
C 系は、ツール操作・ PC 操作・実務ワークフローの遂行に特化したエージェント型モデルとして強みを発揮します。コマンドライン操作や OS 上での一連の手順実行、業務ドメインにおける複雑なツール連携など、実際の作業環境に近い場面で高い適応性を持っています。
特に C-1 は、複数の業務領域(Retail、Telecom など)におけるタスク遂行で極めて高い成績を示し、実務支援 AI としての安定性が際立っています。
弱み
純粋な知識問題や高度な抽象推論、数学コンテストのような理論中心の課題では、A 系や B 系ほどの強みを持ちません。
また、小型モデルである C-3 などでは、ツール操作タスクでも性能差が大きく表れるため、要求される複雑さや精度に応じてモデル選択が必要となります。