Claude Sonnet 4.5
https://www.anthropic.com/news/claude-sonnet-4-5
モデル性能
SWE-bench Verifiedで最先端
https://gyazo.com/5212dae3438725465c1dff7a97d2f00b
https://gyazo.com/33c46f76cdd221069c968cba15cc065c
OSWorld(実環境操作ベンチマーク)で大幅進歩(42.2%→61.4%)
他と一番差があるのがこれだから、プロモツイートもこれ推しだが、コーディングタスクにどれぐらい寄与するのか不明基素.icon
ブラウザでコンピュータを操作できるということらしい
https://youtu.be/oXfVkbb7MCg
推論、数学、専門領域(金融・法・医療・STEM)でも改善
長時間(30時間超)複雑タスクに集中可能
これは特殊な条件下であって普通に使ってそんなことできない基素.icon
新機能
Claude Code: チェックポイント保存・復元、端末UI刷新、VS Code拡張、APIの長期コンテキスト・メモリ強化
Claudeアプリ: コード実行、ファイル生成(スプレッドシート・スライド・文書)対応
Chrome拡張: Maxユーザー向け提供開始
Claude Agent SDK: Claude Codeを支えるインフラを一般開放し、独自エージェント構築可能
安全性・アライメント
過去モデルより誤誘導・迎合・権力志向・妄想助長を減少
プロンプトインジェクション耐性を強化
AI Safety Level 3 (ASL-3) の保護下で提供(CBRN関連はフィルタ)
研究プレビュー
「Imagine with Claude」
利用
APIでは claude-sonnet-4-5 を指定するだけで使用可能
価格は従来のSonnet 4と同じ($3/$15 per million tokens)
全ユーザーにClaude Codeアップデート、開発者にはAgent SDK提供
基素.icon
以前のSonnetより迎合的でなく、アーキテクチャを理解してコードを生成する知性を感じた
https://gyazo.com/05384b3ed85cc9a5fe4862b85dc4ef5d