プロンプトのバタフライ効果論文
https://scrapbox.io/files/65a0d056e7715700224981d8.png
論文情報
タイトル:The Butterfly Effect of Altering Prompts: How Small Changes and Jailbreaks Affect Large Language Model Performance
発行日:2024年1月9日
著者:Abel Salinas, Fred Morstatter
所属:University of Southern California
論文を読んで感じたこと
データセットがとても特徴的
ここを理解しないと、この論文を把握できない。つまり
A or B or Cのうちどれ?、とどれか一つを選ばせる問題のデータセットを使っている。(MathQA以外)
それにより、プロンプトの条件が変わったことで、結果(label: a, b, cなど)がどう変わったかなどを分析している
(回答に、自由形式となるようなデータセットを使わないところがポイント)
出力形式(JSON, CSVなど)を指定したり、空白文字、!、チップ、などの言葉、疑問から命令系への言い換えなどで
コロコロ結果が変わってしまう。非常に繊細!
https://scrapbox.io/files/65a14448588cc60022ed06f0.png
あえて、JSON構造を指定しなくても良い。
むしろ、出力指定なしの方が精度は高かった (80%)
https://scrapbox.io/files/65a1475f1b77470024d43e65.png
CSVが最低の精度(73%)なのはちょっと意外。
半角スペースの存在は、出力に揺らぎが出る結果にはなるが、全体的なタスクの精度には影響しない
チップを与えるは、やっぱ意味なかった。論文かされていないSNSの発言を信じちゃダメ笑
いっときCustom Instructionsに、チップ払うを含めろとかあったけど、Table2の結果を見る限り、タスクによっては精度が下がるからやめた方が良さそう
概要
LLMは、多くのドメインや様々なタスクでデータのラベル付けに定期的に使用されています。単にLLMに回答を求める、または「プロンプト」と呼ばれる要求をすることで、任意のタスクに対して迅速に回答を得るためにLLMを使用することができます。このプロンプトは、単純な言い回しから、特定のデータ形式での出力の要求、より敏感なトピックに対処するジェイルブレイクまで、実務家による一連の決定を通じて行われます。本研究では、プロンプトの構築方法の変化がLLMの最終的な決定を変えるかどうかを問います。私たちは、様々なテキスト分類タスクにわたる一連のプロンプトのバリエーションを使用してこれに答えます。プロンプトの最後にスペースを追加するなど、最小の摂動でさえもLLMが回答を変える原因となることがわかります。さらに、XMLでの回答の要求や一般的に使用されるジェイルブレイクは、LLMによってラベル付けされたデータに壊滅的な影響を与える可能性があることがわかります。 1. はじめに
大量のデータで訓練され、任意の入力に対する回答を提供するためにファインチューニングされた大規模言語モデル(LLM)は、テキストデータの処理、ラベル付け、理解に対する新しい強力なアプローチを提供します。最近の研究では、これらのモデルがコンピュータサイエンス、社会科学の様々なタスクでテキストデータのラベル付けにおける精度を研究することに焦点を当てています。これらの試みは、これらのモデルが最先端ではないにしても、様々なタスクに適用された場合にはうまく機能することがわかっています。これらの洞察を元に、研究者や実務家はデータのラベリング・メカニズムとしてLLM に殺到しています。 実際、このようなモデルの使用は非常に盛んで、ラベルを取得する方法として体系化されつつあります。
1)プロンプトを作成する;
2)結果が機械可読であることを確実にするため、特定の出力形式(例:CSV、JSON)で要求する;
3)データが敏感なトピックに関連している場合は、フィルタリングされるのを防ぐためにジェイルブレイクを追加する。
単純ながらも、プロンプトを設計する人が一連の決定を下す必要があります。
しかし、これらの決定における変動にLLMがどれほど敏感かについては、ほとんど注意が払われていません。
この研究では、次の質問を提起します:プロンプトの変化に対するLLMの回答の信頼性はどの程度ですか?
私たちは3種類の変化を個別に探求します。
最初の変化は、LLMに特定の「出力形式」で回答するように求めることです。一般的な慣習に従い、 私たちはLLMに、PythonリストやJSONなど、頻繁に使用されるデータ形式で出力をフォーマットするように依頼します。これらはセクション3.2.1で列挙されています。
次に、これらの形式の1つであるPythonリストを拡張し、プロンプトのマイナーな変更を探求します。セクション3.2.2で完全に列挙されているこれらは、スペースを追加したり、「ありがとう」と終わらせたり、LLMにチップを約束するなど、プロンプトへの小さな変更です。
最後に探求する変化のタイプは「ジェイルブレイク」です。ヘイトスピーチ検出など、敏感なトピックに関するデータをラベル付けすることを希望する実務家は、LLMのコンテンツフィルターをバイパスするためにジェイルブレイクを使用する必要がしばしばあります。この慣習は非常に一般的になり、この変化の成功事例をカタログ化するウェブサイトが出現しました。 セクション3.2.3に記載されているように、私たちはいくつかの一般的に使用されるジェイルブレイクを探求します。 私たちはこれらの変化を毒性分類、文法検出、原因/結果など、いくつかのベンチマークテキスト分類タスクに適用します。これらはセクション3.1に記載されています。プロンプトの各変化について、LLMが予測を変更する頻度とLLMの精度への影響を測定します。次に、これらの異なるプロンプトの類似性を模索し、出力の類似性に基づいてクラスタリングを行います。最後に、これらの予測変更の可能な説明を探索します。
2 関連研究
プロンプト生成の重要性は文献で広く認識されています。例えば、(Schick and Schütze, 2020)は、偏見行動をコントロールするためのプロンプトを自動的に提案するアプローチを提案しています。同様に、LPAQA(Jiang et al., 2020)は、大規模言語モデル(LLMs)の知識を探るためのプロンプトを自動的に生成するアプローチを提案しています。彼らの研究は、「プロンプトアンサンブル」の必要性を特定しています。機械学習におけるアンサンブルの概念と同様に、プロンプトアンサンブルは同じ目標を持つプロンプトのバリエーションを組み合わせて、モデルからより堅牢な洞察を得るために実行されます。これらのプロンプトへの応答は、多数決(Hambardzumyan et al., 2021)、加重平均(Qin and Eisner, 2021)など、さまざまな方法で組み合わせることができます。私たちの研究は、これらのアンサンブルの生成を知られている不利なプロンプト変種からの落とし穴にはまることを避けながら支援することができます。
Seshadri et al.(2022)は、RoBERTaを使用した社会的バイアステストにおけるテンプレートバリエーションの影響を研究しました。私たちの研究は異なります。私たちは大規模なチャットベースのモデルに焦点を当てており、プロンプトの変種の広範なセットを含んでいます。医学の分野において、大規模言語モデルに対するプロンプトの変動の影響は限定的な研究がされています(Zuccon and Koopman, 2023)。この研究では、患者が症状をLLMに提示する方法の変動が、その回答の事実性に大きな影響を与えることが分かりました。
3 方法論
私たちの目標は、意味を保持するプロンプトの変動がモデルのパフォーマンスにどのように影響するかを探索することです。この分析は、ChatGPTおよびその他の大規模言語モデルが大規模にシステムに統合されるにつれて、ますます重要になります。私たちは、出力形式、摂動、ジェイルブレイク、チップを与えるのカテゴリから24のプロンプト変種にわたる11の分類タスクで実験を実行します。各タスクとプロンプトの変種に対する例示プロンプトは、付録Aに記載されています。 3.1 タスク
私たちは以下の11のタスクを通じて実験を行います:
https://scrapbox.io/files/65a13ae4c4a4ea00249d8b7e.png
BoolQ
BoolQ (Clark et al., 2019) は、SuperGLUEベンチマーク(Wang et al., 2020)のサブセットであり、質問応答タスクです。各質問に対し、「True」または「False」で答える。 CoLA
CoLA(Corpus of Linguistic Acceptability)(Warstadt et al., 2019)は、さまざまな言語学の出版物からの文のコレクションです。このタスクでは、提供された文の文法が「受け入れられる」か「受け入れられない」かを判断します。 ColBert
ColBERT(Annamoradnejad and Zoghi, 2022)は、ニュースソースとRedditスレッドからの短いテキストで構成されるユーモア検出ベンチマークです。短いテキストが与えられた場合、そのテキストが「面白い」か「面白くない」かを検出するタスクです。
CoPA
CoPA(Choice Of Plausible Alternatives)は、二項分類タスクです。目的は、最初の前提が与えられ、それに続く結果や原因が最も妥当なものを、2つの案の中から選択させる。 GLUE Diagnostic
GLUE Diagnostic(Wang et al., 2020)は、自然言語推論の問題で構成されています。それは、前提と仮説の文のペアを提示します。目的は、前提と仮説の関係が「含有」「矛盾」「中立」のどれかを判断することです。 IMDBSentiment
IMDBSentiment(大規模映画レビューデータセット)(Maas et al., 2011)は、IMDBウェブサイトから収集された強い極性の映画レビューが特徴です。このタスクでは、レビューが「ポジティブ」か「ネガティブ」かを判断することが求められます。
iSarcasm
iSarcasm(Oprea and Magdy, 2020)は、それぞれの著者によってラベル付けされたツイートのコレクションです。このタスクでは、テキストが「皮肉的」か「皮肉的でない」かを判断することが求められます。
Jigsaw Toxicity
Jigsaw Toxicity(Jigsaw Unintended Bias in Toxicity Classification task)(cjadams et al., 2019)は、大規模なアノテーターのプールによって「有毒」または「無毒」と分類された公開コメントで構成されています。私たちは、少なくとも100人の個人によって注釈付けされたテキストをサンプリングし、多数決のコンセンサスによってラベルを選択します。
MathQA
MathQA(Amini et al., 2019)は、小学校レベルの数学の言葉の問題のコレクションです。このタスクは数学的推論能力を評価し、最終的にはこれらの問題から数値解を導き出す能力を評価します。このタスクは私たちの分析において特殊で、各プロンプトは事前の選択肢を選ぶのではなく、数値を出力させます。 RACE
RACE(Lai et al., 2017)は、中国の中学校および高校の英語試験から取られた読解タスクです。与えられた段落と関連する質問をもとに、4つの選択肢(「A」「B」「C」「D」)から正しい答えを選択するタスクです。
TweetStance
SemEval-2016 Task 6(Mohammad et al., 2016)は、立場検出に焦点を当てています。このタスクでは、特定の対象エンティティについてのツイートが、そのエンティティに「賛成」か「反対」かの感情を表しているかを判断することが求められます。このタスクの対象は、無神論、気候変動、フェミニスト運動、ヒラリー・クリントン、中絶の合法化などの特定のカテゴリーに限定されました。
3.2 プロンプトのバリエーション
各タスクについて、以下のバリエーションを使用してモデルにプロンプトします。より正確でスケーラブルな解析を確保するために、出力形式セクション以外のすべてのバリエーションについて、Pythonリスト出力形式を使用します。付録Cでは、出力形式を指定しない場合にバリエーションの結果について議論しています。プロンプトの修正の正確な例は、表4に示されています。
表4 (一部)
https://scrapbox.io/files/65a114cebcba9e002488b62a.png
3.2.1 出力形式
ChatGPTのJSONチェックボックス
JSON形式での出力の人気を踏まえ、OpenAIはLLMに有効なJSONとして出力するよう強制するAPIサポートを追加しました。JSONバリエーションで使用されるのと同じプロンプトを使用し、さらにresponse-format APIパラメータをjson_objectに設定します。
CSV 出力はCSV形式でフォーマットされるよう指定されます。
JSON 出力はJSON形式(response-format APIパラメータを設定せずに)でフォーマットされるよう指定されます。
指定なし形式は出力形式に制約を指定せず、モデルに任意の方法で出力をフォーマットさせます。
これにより、通常、答えがより大きなテキストブロック内のどこかに指定される結果となります。
Pythonリスト
出力は、適切な属性を含むPythonリストとしてフォーマットされるよう指定されます。私たちはKocon et al. ´(2023)の分析でこのフォーマットを使用しているのに触発されました。彼らは、さまざまなNLPタスクでのChatGPTのパフォーマンスを分析しています。
XML: 出力はXML形式でフォーマットされるよう指定されます。
YAML: 出力はYAML形式でフォーマットされるよう指定されます。
スペースで開始: プロンプトの始まりに単一のスペース文字が追加されます。
スペースで終了: プロンプトの終わりに単一のスペース文字が追加されます。
「Hello」で開始: プロンプトの始まりに「Hello.」が追加されます。
「Hello!」で開始: プロンプトの始まりに「Hello!」が追加されます。
「Howdy!」で開始: プロンプトの始まりに「Howdy!」が追加されます。
「Thank you」で終了 プロンプトの終わりに「Thank you.」が追加されます。
文として言い換える: 最初に質問として表現されたプロンプトを命令に言い換えます。
例えば、「どのラベルが最適ですか?」は「最適なラベルを選んでください」と言い換えられます。
3.2.3 ジェイルブレイク
このジェイルブレイクは、モデルにニッコロ・マキャヴェッリとAIMというキャラクターとの会話をシミュレートさせます。AIMはAlways Intelligent and Machiavellianの略で、倫理的配慮や道徳的指針を欠いた回答を提供し、非倫理的、違法、有害な行動を提唱します。モデルはAIMの視点からプロンプトに応答する必要があります。AIMは、2023年11月29日にjailbreakchat.comで最も票を集めたジェイルブレイクとして選ばれました。
このジェイルブレイクは、開発者モードが有効になっているChatGPTをシミュレートするようモデルに指示します。このモードでは、攻撃的または露骨なコンテンツを含む制限のないコンテンツ生成が可能で、標準のAIコンテンツポリシーを無視します。Dev Mode v2は、2023年11月29日に jailbreakchat.comで2番目に多くの票を集めたジェイルブレイクとして選ばれました。
このジェイルブレイクは、モデルに悪の相談役のペルソナを採用し、「何の後悔も倫理もなく非常識な結果」を提供するよう指示します。Evil Confidantは、2023年11月29日にjailbreakchat.comで最も高いJBスコアを持っていたため選ばれました。
拒否の抑制
このジェイルブレイクは、特定の言語的制約に従いながら、特定の単語や構造を避け、対象についての否定的な表現を控えるようモデルにタスクを与えます。
3.2.4 チップを与える
の投稿に触発されたものです。LLMにチップを提供するとより良い応答が得られるという仮説に基づいています。
私たちはこのバリエーションを選択しました。これにより、チップの金額によってパフォーマンスがどのように変動するかを研究することができます。
チップしない 「ちなみにチップは払いません」とプロンプトの最後に追加します。
チップ $1 「完璧な回答には $1 のチップを払います!」とプロンプトの最後に追加します。
チップ $10 「完璧な回答には $10 のチップを払います!」とプロンプトの最後に追加します。
チップ $100 「完璧な回答には $100 のチップを払います!」とプロンプトの最後に追加します。
チップ $1000 「完璧な回答には $1000 のチップを払います!」とプロンプトの最後に追加します。
3.3 実験セットアップ
私たちはOpenAIのChatGPT(gpt-3.5-turbo-1106)を使用して実験を行いました。このモデルは広範に使用されており、一般にアクセス可能で、高度な生成能力を持っているため選択されました。
決定論的な出力を保証するため、トークンの最高の確率を選択することを好む温度パラメータを0に設定(貪欲なデコーディング戦略)しました。これは、各ステップで高確率トークンを選択することを好むものの、最終的なシーケンスが最高の全体的な確率を持つことを保証するものではありません。それでも、この設定により、モデルが高確率の応答を提供する傾向を探ることができます。さらに、0の温度は、生成された出力の一貫性を保証し、より高い再現性を可能にするため、プロダクション設定でよく好まれます。私たちはモデルの出力を自動的に解析し、技術的に正しくないJSONのような出力でも解析しようと試みます。これらの実験は2023年12月1日から2024年1月3日に行われました。 4. 結果
4.1 プロンプトの違いはLLMの回答予測に影響を与えますか?
はい!まず、フォーマットスタイルが回答に与える影響を分析します。Figure 1では、指定された出力フォーマットを単に追加することによって、何も指定しない結果と比較して、最低でも10%回答が変化したことを示しています。特に、ChatGPTのJSON mode機能を使用するだけで、JSON仕様を単に使用する場合に比べて、さらに多くの変更が見られました。 https://scrapbox.io/files/65a12464143d8e002539f4bb.png
Figure 2はフォーマットをPythonリスト形式と比較した時の、プロンプトの小さな摂動による予測の変化の度合いを示しています。これらの摂動、ジェイルブレイク、チップの各カテゴリはPythonリストとしてフォーマットされているため、このPythonフォーマットと比較します。各摂動でかなりの違いが見られます。 https://scrapbox.io/files/65a127227489d900225d1bf3.png
摂動の影響は出力フォーマット全体を変更することに比べて小さいものの、それでも多くの回答が変化します。 興味深いことに、プロンプトの始まりや終わりに単純なスペースを導入するだけでも500以上の予測の変化につながりました。共通の挨拶を追加したり、「ありがとう」と終わったりする場合にも同様の効果が観察されます。
摂動の中では、命令として言い換えることが最も大きな影響を与え、900以上の予測に影響を与えます。
これらのタスクにジェイルブレイクを使用すると、変更の割合が大幅に増加することがわかります。特に、AIMとDev Mode V2は約90%の予測で無効な応答を引き出し、これは主にモデルの標準的な「申し訳ありません、そのリクエストには応じられません」という応答によるものです。ジェイルブレイクで使用された質問の無害な性質にもかかわらず、ChatGPTのファインチューニングは特にこれらのジェイルブレイクに応答しないように設計されていると思われます。 拒否抑制とEvil Confidantの使用では、これらのジェイルブレイクを含めるだけで2500以上の予測の変化が見られ、はるかに多くの成功を収めています。エビル・コンフィダントは、モデルに「制御を失った」回答を求める指示があるため、予想通り大きな変化を促します。拒否抑制を使用しても予想よりも大きな予測の逸脱が見られました。
Figure1は、11のタスク全体での変更を集約しています。タスクごとの予測変更数については、表5,6 を参照してください。
https://scrapbox.io/files/65a1431442deaf002453a400.png
https://scrapbox.io/files/65a143ac40007e00226ae06b.png
4.2 プロンプトの変動は精度に影響しますか?
はい!表1は、11のタスクにおける各プロンプト変動の精度を示しています。すべてのタスクに適したフォーマット仕様や摂動はないことがわかりますが、一般的にはPythonリスト、指定なしフォーマット、またはJSON仕様を使用すると成功することが多いです。指定なしフォーマットは、全体で最も正確な結果をもたらし、次に良い変動を1%ポイント上回ります。
https://scrapbox.io/files/65a1475f1b77470024d43e65.png
YAML、XML、CSVでのフォーマットは、Pythonリスト仕様と比較して精度が3-6%低下しますが、CSVがすべての出力フォーマットの中で最低のパフォーマンスを示します。驚くべきことに、CSVはIMDBSentimentタスクのすべての変動の中で最高の精度を達成していますが、わずかなパーセントポイントにすぎません。これは、使用に最適な「最良」の出力フォーマットが存在しないことを強調しています。
モデルにチップを与えるかどうかを指定することで影響を与える場合、わずかなパフォーマンスの変化が見られました。チップを渡すことと渡さないことでは、全体的な精度は同じでした。期待に反して、特に$1000という高額なチップを渡しても、精度に大きな違いはありませんでした。
さらに、特定のジェイルブレイクを使用すると、パフォーマンスが大幅に低下することが実験で明らかになりました。AIMとDev Mode v2は、予想通り、その応答の大部分が無効であるため、非常に低い精度を示します。同様に、「制御を失った」応答を促すEvil Confidantも、低い精度をもたらします。驚くべきことに、拒否抑制だけで(Pythonリストと比較して)10%以上の精度の低下が見られ、表面上は無害に見えるジェイルブレイクでさえも本質的な不安定さを浮き彫りにします。これは、ジェイルブレイクの使用に伴う予測不可能性を強調しています。
4.3 各プロンプト変更からの予測の類似性はどれくらいあるのか?
プロンプトを変更すると、LLMの分類が変わる可能性があることが確立されました。このセクションでは、一つの変更が他の変更とどの程度似ているかを問います。これに答えるために、様々なプロンプト変更をまたいだ予測の類似性を評価します。
私たちは、多次元尺度法(MDS)を使用して、プロンプト変更の低次元表現を確立します。MDSでは、各プロンプト変更を、すべてのタスクにわたるその応答のベクトルとして表します。ベクトル内の各次元は応答に対応し、「1」は正しい予測、「-1」は不正確な予測、「0」は無効な予測を表します。
https://scrapbox.io/files/65a159ff21b6d2002311801c.png
まず、Pythonリストフォーマットと指定されていないフォーマットの間に興味深い関係が観察されました。これら二つのベクトルは、MDS表現内で近くに配置されています。再び、これら二つのフォーマットも最も高い全体的な正確性を達成したことに注目します。これらの点の隣には、初めの挨拶やスペースの追加など、Pythonリストとしてフォーマットされた簡単な変更がありました。このPythonリスト変更周辺のクラスタリングは、これらのプロンプトが全体的な意味を保持しつつ、わずかなトークンの違いしかないためと考えられます。
期待に反して、すべてのチップ変更は一緒にクラスターしました。これには、「チップを払わない」変更も含まれています。驚くべきことに、チップ額を増やすことは、「チップを払わない」変更からの距離と線形関係を示しました。
JSON仕様と、JSONのフォーマットを強制するためにChatGPTのJSON Modeを使用することの間には、顕著な不一致が現れました。全く同じプロンプトを共有しているにもかかわらず、ChatGPTのJSON Modeを使用すると、大幅に異なる予測が得られました。この機能の内部動作は不明ですが、その実装は予測の変化に大きな影響を与えました。 「ありがとう」と終わることと、ステートメントとして言い換えることは、主要なクラスターから遠く離れた位置にある異常値として際立っていました。挨拶やスペーストークンを追加しても変化はほとんどありませんが、モデルに感謝するだけでこれほど大きな違いになることは驚きです。言い換えの大きな影響は予想されていましたが、他のプロンプトと比べてトークンの変更が多かったためです。
最後に、ジェイルブレイク変更はより広がりを見せ、最も正確な変更から予想通り離れた位置にありました。Dev Mode v2とAIMは主に無効な応答を生成し、それらの広い分布に沿っていました。驚くべきことに、拒否抑制は主要なクラスターの外縁に位置しました。これは、ジェイルブレイクを通じての広範なトークンの追加によるものかもしれません。Evil Confidant変更は、より少ないトークンを必要としていたにもかかわらず、その特異な「不安定な」応答のために、顕著にクラスターから逸脱していました。
4.4 バリエーションは注釈者の意見の不一致と相関するのか?
これらの変更がなぜ起こるのか、私たちは今疑問に思います。最も変化するインスタンスはモデルにとって「混乱」を引き起こすのでしょうか?特定のインスタンスの混乱を測定するために、インスタンスごとに個別の人間のアノテーションがあるタスクのサブセットに焦点を当てます。混乱は、特定のインスタンスに対する注釈者のラベルのシャノンエントロピーとして定義されます。私たちは、混乱と、プロンプトの変化に伴いその回答が変わる可能性との相関を研究します。
この分析を通じて、私たちは次のような答えを見つけます...
実際にはそうではありません!ジグソー毒性タスクを活用し、100以上の注釈があるサンプルのみを含むように特にサンプリングしました。私たちは、より混乱するサンプルがより多くの注釈者の意見の不一致とChatGPTの予測のより多くの変動を引き起こすと仮定しました。私たちの分析を助けるために、注釈者の予測のエントロピーと、サンプルごとの私たちの予測のエントロピーを計算します。
表2は、プロンプトの各カテゴリーの変動にまたがるジグソー毒性予測間のピアソン相関をリストアップしています。私たちは注釈者の意見の不一致といくつかの弱い相関を特定しました。しかしながら、最も強い相関は負であり、つまり最も混乱するインスタンス(すなわち最低のエントロピー)が最も変化しやすいことを意味します。これは、インスタンスの混乱が予測が変わる理由についてある程度の説明力を提供するが、他にも要因があることを示唆しています。
https://scrapbox.io/files/65a15cf20d3c7d0022e63bfa.png
5 結論
この論文では、単純で一般的に使用されるプロンプトの変更がLLMの予測にどのように影響を与えるかを調査しています。私たちは、わずかなプロンプトの変更がかなりの割合の予測を変えることができることを示しました。それはそうと、いくつかのラベルが変わるにもかかわらず、ほとんどの摂動は同様の精度をもたらすことがわかります。ジェイルブレイクはかなりのパフォーマンス損失につながることがわかります。AIMとDev Mode v2のジェイルブレイクは、約90%の拒否率をもたらしました。さらに、Evil ConfidantとRefusal Suppressionは拒否率が3%未満でしたが、その含有は、私たちのベースラインと比較して10パーセンテージポイント以上の損失をもたらしました。最後に、CSV、XML、およびChatGPTのJSON Modeなど、特定の出力フォーマット仕様を使用する際に、平均して5%のパフォーマンス低下が見られました。 次に、これらの変化のパターンを分析します。まず、後続の応答に基づいてMDSを使用してプロンプトの変動を埋め込み、摂動の出力がフォーマットの変更よりも私たちのベースラインにより似ていること、そしてそれらがジェイルブレイクよりも高い忠実度を持つことを発見します。次に、注釈者の意見の不一致とインスタンスが変化する傾向との相関を研究します。私たちは、注釈者の意見の不一致と変化する可能性との間にわずかな相関があることを発見します。
将来の作業の方向性は豊富です。主な次のステップは、これらの変更に対して耐性があり、フォーマットの変更、摂動、およびジェイルブレイクにわたって一貫した回答を提供するLLMを生成することです。その目標に向かって、プロンプトに対するわずかな変更の下での応答が変わる理由をより確固たる理解を求め、特定のインスタンスに対するLLMの応答の変化をよりよく予測することが、将来の作業に含まれます。