Design Patterns for Securing LLM Agents against Prompt Injections

2025-06

総論として、現行LLMでは「汎用エージェントの完全安全保証は難しい」とし、エージェントの能力を意図的に制限して安全性を高める現実路線を提案

核心原則は、信頼できない入力を取り込んだ後はそれが“結果的な行為”を誘発できないようにすること

実用的な設計パターンの整理

不信任入力前に行動計画を固定し、後続のツール出力が行為選択に影響しないようにする

不信任コンテンツは下位サブエージェントで局所処理し、集約段階で安全に絞り込む

特権LLMが隔離LLMを指揮し、特権側は不信任データに直接触れず、隔離側の記号変数のみを扱う

特権LLMがサンドボックスDSLのコードでツール連携を記述し、汚染データのフロー解析で全体を追跡する

連続対話で不要な文脈を削除し、ユーザプロンプト由来の注入が結果に混入しないようにする