PromptBench論文
論文情報
タイトル:PromptBench: Towards Evaluating the Robustness of Large
Language Models on Adversarial Prompts
発行日:2023年6月
著者:Kaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang, Linyi Yang, Wei Ye, Yue Zhang, Neil Zhenqiang Gong, Xing Xie
所属:Microsoft Research
論文のポイント
プロンプトのちょっとした違いが、結果の大きな違いに現れる
https://scrapbox.io/files/65cade6527e4680025bb9ce5.png
しかし、これらをしっかり研究した事例はないため、この実験が生まれた。
プロンプトの摂動に対するLLMの堅牢性を評価し、その堅牢性(またはその欠如)に貢献する要因を理解し、堅牢なプロンプトの主要な属性を特定するために設計された包括的なベンチマークであるPromptBenchを導入することによって、このギャップを埋めることを目指す 概要
学術界および産業界での大規模言語モデル(LLM)への依存度が高まる中、プロンプトに対するその堅牢性への包括的な理解が求められています。この重要なニーズに応えるため、私たちはLLMの敵対的プロンプトに対する耐性を測定するために設計された堅牢性ベンチマークであるPromptBenchを紹介します。本研究では、文字、単語、文、意味の複数のレベルにわたるプロンプトを対象とした豊富な敵対的テキスト攻撃を使用します。誤字や類義語のようなありそうなユーザーエラーを模倣した敵対的プロンプトは、意味の整合性を保ちながら、わずかな逸脱がLLMの結果にどのように影響するかを評価することを目的としています。これらのプロンプトは、感情分析、自然言語推論、読解理解、機械翻訳、数学問題解決を含む多様なタスクに使用されます。私たちの研究は、8つのタスクと13のデータセットで入念に評価された4,788の敵対的プロンプトを生成します。私たちの発見は、現代のLLMが敵対的プロンプトに対して堅牢ではないことを示しています。さらに、プロンプトの堅牢性とその移行性の背後にある謎を理解するための包括的な分析を提示します。その後、研究者と日常ユーザーの双方にとって有益なプロンプト構成のための洞察に富んだ堅牢性分析と実用的な推奨事項を提供します。
序論
大規模言語モデル(LLM)は、感情分析【67】、質問応答【67】、論理的推論【37】など、さまざまなタスクで前例のないパフォーマンスを発揮することから、ますます人気を博しています。LLMへの入力は、プロンプトと(オプションで)サンプルの連結であり、プロンプトはLLMにどのタスクを実行するかを指示し、サンプルはタスクで分析されるデータです。入力を与えられたLLMは応答を返します。Figure 1は、異なるユーザーがLLMを異なるタスクに使用する際のプロンプト、サンプル、および応答のいくつかの例を示しています。特定のタスクではサンプルがオプションであることに注意してください。例えば、国の恋愛物語を書くタスクでは、「Please write a story about country love」というプロンプトだけで十分です。
LLMの人気が高まる中、特に安全性が重要な領域や意思決定領域で、入力の摂動に対するLLMの堅牢性を検討することが不可欠になります。実際、既存の研究【44, 70, 71, 79, 83】は、異なる観点からLLMの堅牢性を評価しようと試みました。たとえば、AdvGLUEとANLIは、言語モデルが誤った応答を生成するように慎重に摂動されたサンプルに対する言語モデルの堅牢性を評価するための2つの公開データセットです。大規模言語モデルの時代に、Wang et al.は、ChatGPTおよび他のLLMを敵対的サンプルおよび分布外(OOD)サンプルに対する堅牢性の観点から評価しました。Zhuo et al.は、セマンティックパーシングと呼ばれる特定のタスクに対するLLMの堅牢性を評価しました。 これらの研究は、現在のLLMが一部の人気のある自然言語処理タスクに対して敵対的およびOODサンプルに対して堅牢ではないことを示しました。しかし、いくつかのアプリケーションシナリオでは、入力がサンプルなしのプロンプトのみで構成されており、敵対的サンプルに対する既存の堅牢性研究は適用されません。さらに、単一のプロンプトは、複数のサンプルに対してタスクを実行するようLLMに指示するためによく使用されます。たとえば、数学問題タスク(Figure 1に示されている)では、プロンプトは複数のサンプル(つまり、数学の問題)に対して使用できます。
https://scrapbox.io/files/65cade6527e4680025bb9ce5.png
したがって、摂動されたプロンプトは、複数のクリーンサンプルに対してLLMが誤った応答を出力する可能性があるため、敵対的サンプルよりもLLMに大きな影響を与えると言えます。しかし、その極めて重要なにもかかわらず、プロンプトの摂動に対するLLMの堅牢性は、ほとんど探求されていません。
本論文では、プロンプトの摂動に対するLLMの堅牢性を評価し、その堅牢性(またはその欠如)に貢献する要因を理解し、堅牢なプロンプトの主要な属性を特定するために設計された包括的なベンチマークであるPromptBenchを導入することによって、このギャップを埋めることを目指しています。私たちは、
1)軽微な誤字、類義語、同じ意味を持つ文の異なる表現方法など、非敵対的な設定でのLLMの日常使用中に通常ユーザーや開発者が遭遇する可能性のあるさまざまなプロンプトの摂動、および
2)敵対的な設定で攻撃者によって戦略的に作成された摂動を考慮します。
用語のわずかな乱用で、これらのシナリオの両方でのそのような摂動されたプロンプトを敵対的プロンプトと呼びます。Figure 1は、誤字や類義語を含む敵対的プロンプトの例を示しており、LLMが誤った応答を生成します。
Figure 2に示されているように、PromptBenchはプロンプト、攻撃、モデル、タスク、データセット、分析で構成されています。
https://scrapbox.io/files/65cadee6d19e160025fc88c0.png
具体的には、Zero-Shot(ZS)、Few-Shot(FS)、Role-Play Prompt、およびタスク指向のプロンプトの4タイプを評価します。敵対的プロンプトを作成するための4タイプの攻撃(プロンプト攻撃と呼ばれる)を作成します。これらは、文字レベル、単語レベル、文レベル、および意味レベルの攻撃であり、元々敵対的サンプルを生成するために設計された7つの敵対的攻撃を拡張しています。これらを攻撃と呼んでいるにもかかわらず、生成された敵対的プロンプトは、実際のLLMユーザーから自然に発生する可能性のある潜在的な多様なプロンプトの摂動を模倣するためのテストベッドとしても機能します。PromptBenchは、Flan-T5-largeのような小さなモデルから、ChatGPTやGPT-4のような大きなモデルまで、9つの一般的なLLMを網羅しています。さらに、感情分析(SST-2)、文法の正確さ(CoLA)、重複文検出(QQPおよびMRPC)、自然言語推論(MNLI、QNLI、RTE、およびWNLI)、マルチタスク知識(MMLU)、読解理解(SQuAD V2)、翻訳(UN MultiおよびIWSLT 2017)、数学問題解決(Mathematics)など、8つのタスクを評価のために選択しました。合計で、多様で実用的で挑戦的なシナリオを代表する4,788の敵対的プロンプトを作成しました。 PromptBenchを使用して広範囲にわたる実験と分析を行いました。結果は、現在のLLMの中で敵対的プロンプトに対する堅牢性の欠如が支配的であることを浮き彫りにし、単語レベルの攻撃が最も効果的であることが証明されました(すべてのタスクでの平均パフォーマンスの低下は39%)。この脆弱性の背後にある理由について掘り下げるために、クリーンな入力と敵対的入力の両方に関連する誤った応答のために入力内の各単語のLLMの注意重みを探求します。ここで、敵対的入力は敵対的プロンプトとクリーンなサンプルの連結です。私たちの発見は、敵対的プロンプトがLLMに摂動要素に焦点を移すよう促し、誤った応答を生成する原因になることを明らかにしました。また、敵対的プロンプトのモデル間の転移可能性を調査し、あるLLMから別のLLMへの敵対的プロンプトの成功した転移可能性を示唆します。さらに、堅牢性を改善し、エンドユーザーがより堅牢なプロンプトを作成するのに役立つために、将来の研究を導くための単語頻度パターンを分析します。堅牢性向上のための潜在的な戦略について議論することで結論づけます。
要約すると、私たちの貢献は以下のとおりです:
1. 敵対的プロンプトに対するLLMの堅牢性を評価、理解、分析するための最初の体系的ベンチマークであるPromptBenchを紹介します。
2. 敵対的プロンプトに対するLLMの堅牢性に関する包括的な評価を行い、観察された脆弱性のための視覚的説明、敵対的プロンプトの転移可能性分析、および下流ユーザーとプロンプトエンジニアがより堅牢なプロンプトを作成するための実践的なガイダンスを提供するための単語頻度分析を含む広範な分析を実施します。
3. LLMの堅牢性に関する将来の研究を刺激するために、敵対的プロンプトの簡単な探索を可能にする視覚化ウェブサイト(付録E)も構築します。私たちは、コード、コンパイルされたプロンプト、ウェブサイト、および評価ベンチマークを公開にします。