Introducing Claude Sonnet 4.5
📄 Summarized by Claude Sonnet 4.5
Introducing Claude Sonnet 4.5
2025年9月30日公開
どんなもの?
Anthropic
が発表した世界最高のコーディング
AIモデル
複雑な
エージェント
構築に最も強力で、
コンピュータ使用
能力においても最高性能を示す
推論
と
数学
で大幅な性能向上を達成
価格は
Claude Sonnet 4
と同じく$3/$15 per million tokensで提供
Claude Code
、
Claude API
、
Claude Apps
で利用可能
先行研究と比べてどこがすごい?
SWE-bench Verified
で77.2%を達成し、実世界のソフトウェアコーディング能力で最高水準
OSWorld
ベンチマークで61.4%を記録(4ヶ月前の
Sonnet 4
は42.2%)
これまでで最も
アライメント
された
frontier model
Sycophancy
、
deception
、
power-seeking
などの懸念される振る舞いを大幅に削減
Prompt injection攻撃
への防御も大幅に改善
技術や手法のキモはどこ?
30時間以上の複雑な
マルチステップタスク
に集中力を維持できる長時間実行能力
Parallel tool execution
により、複数の
bashコマンド
を同時実行するなど、コンテキストウィンドウあたりのアクション数を最大化
Extended thinking
機能により、最大128Kトークンの推論が可能
Claude Agent SDK
の提供により、
Claude Code
を支える同じインフラを開発者が利用可能
Context editing機能
と
memory tool
により、エージェントがさらに長時間実行し、より大きな複雑性を処理可能
ASL-3保護
による
CBRNフィルター
の実装で安全性を確保
どうやって有効だと検証した?
複数の標準
ベンチマーク
で評価:
SWE-bench Verified
、
OSWorld
、
AIME
、
MMMLU
、
Terminal-Bench
、
τ2-bench
Cursor
、
GitHub Copilot
、
Canva
、
Figma
、
Cognition AI
、
CrowdStrike
など早期顧客からの実用フィードバック
Finance
、
法律
、
医療
、
STEM
分野の専門家による
ドメイン特化知識
と推論能力の評価
Devin
ではプランニング性能が18%、エンドツーエンド評価スコアが12%向上
Hai security agents
では平均脆弱性取り込み時間を44%削減、精度を25%向上
議論はある?
ASL-3保護
の一環として
CBRN weapons
関連の入出力を検出する
classifiers
を実装
通常のコンテンツが誤ってフラグされる
false positives
の問題が存在するが、初期の10分の1、
Opus 4
リリース時の2分の1にまで改善
Cybersecurity
や
生物学研究
業界の顧客は、アカウントチームと連携して
allowlist
に参加可能
mechanistic interpretability
の技術を用いた安全性評価を初めて
system card
に含める
5日間限定で
Imagine with Claude
という研究プレビューを提供し、リアルタイムでソフトウェアを生成
#AI
#機械学習
#大規模言語モデル
#コーディング支援
#エージェント技術