GPT-5.2
突貫作業で仕上げてきた
自分のアカウントにはまだ来ていない
昼過ぎに来た
OpenAIは、専門的な知識業務や長時間稼働のエージェント向けの最先端フロンティアモデル、GPT-5.2を公開した
GPT-5.2は、長文コンテキストの理解、ツール活用、複雑な多段階プロジェクト処理など、幅広い作業で高い性能を発揮する
スプレッドシートやプレゼンテーションの作成
コード作成
画像認識
多くのベンチマークで新たな最高水準を示し、特にGDPvalでは業界の専門家を上回った
GDPval(知識業務タスク): 70.9% (GPT-5.1 Thinkingの38.8%から向上)
SWE-Bench Pro(ソフトウェアエンジニアリング): 55.6% (GPT-5.1 Thinkingの50.8%から向上)
GPQA Diamond(科学分野の質問): 92.4% (GPT-5.1 Thinkingの88.1%から向上)
HMMT(数学コンテスト): 99.4% (GPT-5.1 Thinkingの96.3%から向上)
既存ユーザーはAIによってすでに1日に40〜60分、ヘビーユーザーでは週に10時間以上を節約できている
GPT-5.2 Thinkingは、実際の専門業務に最適な最も優れたモデルとして位置づけられている
経済的価値の高いタスク
GDPvalでは、難度の高い知識業務タスクの70.7%で業界トップクラスの専門家と同等以上の結果を示した
人間による確認と組み合わせることで専門業務を支援できる
専門家の11倍以上の速度、1%未満のコストで結果を生成
投資銀行アナリスト初級レベルの内部ベンチマークでは、タスク平均スコアが59.1%から68.4%へ上昇
スプレッドシートやスライドの書式設定が向上
コーディング
実世界のソフトウェアエンジニアリングを評価するSWE-Bench Proで55.6%を達成し最高スコアを記録
日常的な専門業務で、本番コードのデバッグや機能追加の実装などをより安定してこなせる
フロントエンド開発や複雑・非標準的なUI作業にも優れている
事実性
ハルシネーション(誤りを含む回答)の発生がGPT-5.1 Thinkingと比べて相対的に38%減少
調査、文書作成、分析、意思決定支援などの作業で信頼性が向上
長文コンテキスト
長文コンテキスト推論で新たな水準を達成し、OpenAI MRCRv2でトップレベルの性能
256kトークンまで扱えるバリアントで、ほぼ100%の精度を達成した初めてのモデル
レポート、契約書などの長文ドキュメントを扱い、深い分析や情報統合に適している
Vision
チャート推論やソフトウェアインターフェース理解におけるエラー率を約半分に削減
視覚情報が中心となるワークフロー(財務、エンジニアリングなど)をより正確に解釈
画像内の要素の配置を正確に把握し、空間的配置理解が必要なタスクで高性能を発揮
ツール呼び出し
Tau2-bench Telecomにおいて98.7%を達成し、長時間・複数ターンタスクでのツール活用能力が向上
レスポンスの遅延が重要となるユースケースでも、低設定でGPT-5.1を大きく上回る性能
複数のエージェントを連携させ、複雑なカスタマーサービスの問い合わせも処理可能
科学と数学
科学研究を支援する世界屈指のモデル
GPQA Diamond(大学院レベルのQ&A)で92.4%を達成
FrontierMath(上級数学)で40.3%を達成
ARC-AGI-2(抽象的推論)で52.9%を達成し最高スコアを記録
提供状況
ChatGPTでは、本日より有料プラン(Plus、Pro、Go、Business、Enterprise)から順次提供開始される
GPT-5.2 Instant: 日常の仕事や学習に役立つ高速で頼れるモデル
GPT-5.2 Thinking: 複雑なタスクを洗練された形でこなす、より深い業務向け
GPT-5.2 Pro: 高品質な回答が求められる難しい質問に適した最も高度なモデル
APIでは、すべての開発者が本日より利用可能
GPT-5.1はレガシーモデルとして有料ユーザー向けに3か月間提供後、終了予定 安全性
GPT-5で導入された安全な回答生成に関する研究をさらに発展させた
センシティブな会話(自殺、メンタルヘルスなど)への応答が大幅に改善
望ましくない応答がさらに減少
18歳未満のユーザーに対してセンシティブなコンテンツへのアクセスを制限する保護措置を導入開始