LLMのアテンションヘッドに着目したジェイルブレイク攻撃の分析と防御手法の提案 - nikkie-memos

LLMのアテンションヘッドに着目したジェイルブレイク攻撃の分析と防御手法の提案

https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/A1-1.pdf

攻撃はSureの生成確率を最大化しようとする

GCG

AutoDAN

防御策としてattention headに介入

普通の会話でもSureの後否定するように変わったか評価 AlpacaEval

Llama 2 7B とMistral

AdvBench