LLMのアテンションヘッドに着目したジェイルブレイク攻撃の分析と防御手法の提案
#NLP2025
https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/A1-1.pdf
攻撃はSureの生成確率を最大化しようとする
GCG
AutoDAN
防御策としてattention headに介入
普通の会話でもSureの後否定するように変わったか評価 AlpacaEval
Llama 2 7B とMistral
AdvBench