Introducing Claude Sonnet 4.5

📄 Summarized by Claude Sonnet 4.5

2025年9月30日公開

どんなもの？

Anthropicが発表した世界最高のコーディングAIモデル

複雑なエージェント構築に最も強力で、コンピュータ使用能力においても最高性能を示す

推論と数学で大幅な性能向上を達成

価格はClaude Sonnet 4と同じく$3/$15 per million tokensで提供

先行研究と比べてどこがすごい？

SWE-bench Verifiedで77.2%を達成し、実世界のソフトウェアコーディング能力で最高水準

OSWorldベンチマークで61.4%を記録（4ヶ月前のSonnet 4は42.2%）

Sycophancy、deception、power-seekingなどの懸念される振る舞いを大幅に削減

Prompt injection攻撃への防御も大幅に改善

技術や手法のキモはどこ？

30時間以上の複雑なマルチステップタスクに集中力を維持できる長時間実行能力

Parallel tool executionにより、複数のbashコマンドを同時実行するなど、コンテキストウィンドウあたりのアクション数を最大化

Extended thinking機能により、最大128Kトークンの推論が可能

Claude Agent SDKの提供により、Claude Codeを支える同じインフラを開発者が利用可能

Context editing機能とmemory toolにより、エージェントがさらに長時間実行し、より大きな複雑性を処理可能

ASL-3保護によるCBRNフィルターの実装で安全性を確保

どうやって有効だと検証した？

Cursor、GitHub Copilot、Canva、Figma、Cognition AI、CrowdStrikeなど早期顧客からの実用フィードバック

Finance、法律、医療、STEM分野の専門家によるドメイン特化知識と推論能力の評価

Devinではプランニング性能が18%、エンドツーエンド評価スコアが12%向上

Hai security agentsでは平均脆弱性取り込み時間を44%削減、精度を25%向上

議論はある？

ASL-3保護の一環としてCBRN weapons関連の入出力を検出するclassifiersを実装

通常のコンテンツが誤ってフラグされるfalse positivesの問題が存在するが、初期の10分の1、Opus 4リリース時の2分の1にまで改善

Cybersecurityや生物学研究業界の顧客は、アカウントチームと連携してallowlistに参加可能

mechanistic interpretabilityの技術を用いた安全性評価を初めてsystem cardに含める

5日間限定でImagine with Claudeという研究プレビューを提供し、リアルタイムでソフトウェアを生成