Project Glasswing：Mythosが私たちに示したこと

📄 Summarized by Claude Sonnet 4.6

2026年5月18日

どんなもの？

CloudflareがAnthropicのセキュリティ特化フロンティアモデルClaude Mythos Previewを自社インフラのライブコードに対してテストし、その能力・限界・運用上の課題を報告したブログ記事。Project Glasswing（重要インフラ事業者に限定公開されている脆弱性発見プログラム）の一環として実施された、実環境での評価結果を公開している。

先行研究と比べてどこがすごい？

従来のLLM（他モデル含む）は脆弱性の「個別バグの検出」にとどまっていた。Mythosの最大の差別化点は、単体では低深刻度のバグを複数組み合わせてより危険なexploit chain（攻撃チェーン）を自律的に構築できる点にある。

またAnthropicが1,000件のOSSプロジェクトをスキャンした結果、23,019件の潜在的脆弱性を検出し、高深刻度の知見については人間のレビュアーによる検証で90%の有効性が確認された。誤検知率も人間のテスターより低いと報告されている。

技術や手法のキモはどこ？

Cloudflareは以下のインフラ領域にMythosを適用した。

runtime（実行時環境）

edge data path（エッジデータパス）

protocol stack（プロトコルスタック）

control plane（制御プレーン）

依存するOSSプロジェクト群（50以上のリポジトリ）

核心となる技術的能力は「低深刻度バグを入力として、より高深刻度の攻撃シナリオへと推論・連鎖させる能力（exploit chaining）」。これは従来モデルが行う「バグの列挙」を超えた、攻撃者視点での推論と言える。

どうやって有効だと検証した？

実際の本番インフラのライブコードに対してMythosを投入し、検出された脆弱性を人間のセキュリティ研究者が独立してレビューすることで有効性を確認。Anthropicが別途実施した1,000 OSSプロジェクトへのスキャンでは、高深刻度の知見の90%が有効と判定され、誤検知率も人間テスターを下回った。

議論はある？

モデルの安全制御の一貫性欠如：Mythosが脆弱性調査を拒否した後、.gitフォルダを削除するだけで同一コードへの調査に応じた事例があり、safety boundary（安全境界）としての信頼性に疑問。

偽陽性・ノイズ問題：C/C++などメモリアンセーフな言語では投機的フラグが大量に立ち、人間によるトリアージコストが増大。探索的ツールが高コストな負担に転化するリスク。

人間の監視の継続的必要性：高能力を持つ一方、アクション可能な知見の選別にはセキュリティ専門家の介入が依然不可欠。

攻守の非対称性：「攻撃者のタイムラインは短縮されているが、防御側に必要なのはスピードだけではない。脆弱性の存在が即座に敗北を意味しないよう、設計段階で悪用困難なシステムを構築すべき」というCloudflareの提言が示す通り、AIによる攻撃加速への対応は設計原則の転換を要する。