Design Patterns for Securing LLM Agents against Prompt Injections
https://arxiv.org/abs/2506.08837
2025-06
LLMエージェントのprompt injection対策についての論文
総論として、現行LLMでは「汎用エージェントの完全安全保証は難しい」とし、エージェントの能力を意図的に制限して安全性を高める現実路線を提案
核心原則は、信頼できない入力を取り込んだ後はそれが“結果的な行為”を誘発できないようにすること
https://simonwillison.net/2025/Jun/13/prompt-injection-design-patterns/#atom-everything にて
実用的な設計パターンの整理
Action-Selector
ツールの結果をエージェントへ戻さず、外部行為のフィードバックを遮断してインジェクション耐性を得る
Plan-Then-Execute
不信任入力前に行動計画を固定し、後続のツール出力が行為選択に影響しないようにする
LLM Map-Reduce
不信任コンテンツは下位サブエージェントで局所処理し、集約段階で安全に絞り込む
Dual LLM
特権LLMが隔離LLMを指揮し、特権側は不信任データに直接触れず、隔離側の記号変数のみを扱う
Code-Then-Execute (CaMeL)
特権LLMがサンドボックスDSLのコードでツール連携を記述し、汚染データのフロー解析で全体を追跡する
Context-Minimization
連続対話で不要な文脈を削除し、ユーザプロンプト由来の注入が結果に混入しないようにする