OpenAI o3 / Anthropic Claude 3.7 Sonnet / Google Gemini 2.5 Pro の比較
OpenAI o3
強化学習による「思考」(chain-of-thought)機構を組み込んだ最新の大規模言語モデル
数学・科学・コーディングなどの複雑問題で性能が大きく向上しており、SWE-bench Verifiedでは71.7%(o1の48.9%から大幅アップ)、Codeforces Eloスコア2727(o1の1891)といったベンチマーク
画像理解にも対応し、ユーザーがアップロードした写真や図表を「思考」に組み込んで解析できる
ただし、非常に高度な計算資源を要し、応答レイテンシも大きめ
コンテキストウィンドウは128Kトークンまで
APIやChatGPT(Enterprise/Edu)経由で利用でき、API価格は入力$10/百万トークン、出力$40/百万トークンと高額
Anthropic Claude 3.7 Sonnet
通常応答モードと長時間の「拡張思考」モードを切り替えられるハイブリッド推論モデル
既存のClaude 3系を進化させたもので、特にコーディング能力に優れる
実際、リアルワールドのソフトウェア開発課題を扱うSWE-benchやTAU-benchで現時点で最高のスコアを示す
画像理解機能も備えており、テキストだけでなく図表や写真から情報を読み取れる
Claude.ai(Free/Pro/Enterprise)やAnthropic API、AWS Bedrock、Google Vertex AI上で利用可能で、価格は入力$3/百万トークン、出力$15/百万トークン(拡張思考含む)
Google DeepMind
テキスト・画像・音声・動画をネイティブに扱うマルチモーダルLLMで、思考プロセスを核に設計
1Mトークンという巨大なコンテキストウィンドウを持ち、Google検索による情報も活用して複雑な問題解決に取り組みます
Googleの発表によれば、OpenAI o3やClaude Sonnetを上回る推論能力を持ち、AIME数学ベンチで86.7%、GPQA科学ベンチで84%、SWE-bench Verifiedで63.8%を記録
このモデルはリアルタイム性にも配慮されており、マルチメディア解析や長文ドキュメントの要約・質問応答に向いています
Google Bardアプリ(実験/プレビュー版)やVertex AI、Gemini APIで提供され、プレビュー時のAPI価格は入力$1.25/百万トークン、出力$10/百万トークン(200Kトークンまで)となっている
用途別おすすめLLM
プログラミング支援: Anthropic Claude 3.7 Sonnet
Anthropic Claude 3.7 Sonnetは「現時点で最良のコーディングモデル」と評されており、特にGitHub連携やデバッグ支援で高性能。OpenAI o3も優れたコーディング能力を持ちますがコストが高いため、大規模開発や高度なデバッグにはSonnetが向いている。
クリエイティブ執筆: OpenAI o3
OpenAI o3は外部評価で「創造的発想」タスクにおいて特に優れており、複雑なプロンプトにも柔軟に対応。また、マルチモーダル機能を使ってビジュアルコンテンツからアイデアを得ることも可能。Claude Sonnetも柔軟でスムーズな対話が得意だが、特にアイデア創出や文章生成の質で優れた結果が得られる。Gemini 2.5 Proも基本的なテキスト生成に強く、音声・画像を絡めた創作には最適。
学術研究・調査: Google Gemini 2.5 Pro
Google Gemini 2.5 Proは膨大なトレーニングデータと大規模検索連携を活かし、長大な論文や映像をまとめるのに適している。1Mトークンの文脈管理で複数文献の情報統合も得意。数学や科学の問題解決ではOpenAI o3の深い推論も有効で、GPQA86%以上の性能を発揮する。
Claude Sonnetは実データに即したタスクに強く、要約や質的分析にも向いています。
#AI
#LLM