LLMの質問を繰り返すテクニック一覧
以下の3つの似たプロンプトに対し、使い分けや効果などをしっかり検証する
Echo Prompt
Re-Reading
Rephrase and Respond (RaR)
先に結論: 使い分け
質問の繰り返しには、Re-Readingを使う
Echo Prompt論文のデータは、かなり怪しい(下記考察参照)
Rephrase and Respond (RaR)は、厳密にいうと繰り返しではなく、言い換え
そのため、このカテゴリーというより、推論を改善させるために使う
CoT (Chain-of-Thought)を改善させるためのテクニックとして使う
プロンプトの違い
Echo Prompt
code:md
質問を繰り返して、そしてステップバイステップで答えてください。
Re-Reading
code:md
Q:{質問}
質問をもう一度読む。:{質問}
#回答のフォーマット指示#
A: ステップバイステップで考えてください。
Rephrase and Respond (RaR)
code:md
Q:{質問}
上記の質問を考慮して、より良い回答ができるように質問を言い換えて拡張し、最後にステップバイステップで答えて
考察
上2つは意味的に同じで、下のRaRだけは、自分の言葉で言い換えをさせて質問を拡張させている。
上2つを細かく見ると
Echo Promptは、繰り返してという指示を出しているだけ (実際に繰り返したかは不明)
Re-Readingは、明示的に質問をコピペしてもう一度貼りつけて、プロンプトに入れている
Re-Readingの方が、質問を繰り返すという意味においては、強力と思われる
記号推論: Coin Flipでの正解率の違い
Zero-shot (GPT-3.5-Turbo): 76.7%
Zero-Shot CoT: 99.8%
Echo Prompt (GPT-3.5-Turbo): 86.8%
Echo Prompt + Zero-Shot CoT: 98.6%
https://scrapbox.io/files/65b9af567347f80026ceb8a5.png
Zero-shot (GPT-3.5-Turbo): 52%
Zero-Shot CoT: 88.8%
Re-Reading (ChatGPT (GPT-3.5-turbo)): 57.2%
Re-Reading + Zero-Shot CoT: 95.2%
https://scrapbox.io/files/65b9afe57ec10700240edde3.png
Zero-shot (GPT-3.5-Turbo): 59.5%
Rephrase and Respond (RaR) (2-step): 61.4%
https://scrapbox.io/files/65b9b0e023b9040023174b56.png
常識推論: Date Understandingの正解率の違い
Zero-shot (GPT-3.5-Turbo): 45.7%
Zero-Shot CoT: 46.6%
Echo Prompt (GPT-3.5-Turbo): 44.1%
Echo Prompt + Zero-Shot CoT: 45.8%
https://scrapbox.io/files/65b9b3ae863c690027d0175d.png
Zero-shot (GPT-3.5-Turbo): 47.4%
Zero-Shot CoT: 43.6%
Re-Reading (ChatGPT (GPT-3.5-turbo)): 48%
Re-Reading + Zero-Shot CoT: 47.2%
https://scrapbox.io/files/65b9b4df46ce2700249d4e2b.png
Zero-shot (GPT-3.5-Turbo): 52.6%
Rephrase and Respond (RaR) (2-step): 53.4%
https://scrapbox.io/files/65b9b5753f95af00231c313b.png
数学の問題(GSM8K)の正解率の違い
Zero-shot (GPT-3.5-Turbo): 5.6%
Zero-Shot CoT: 75.7%
Echo Prompt (GPT-3.5-Turbo): 24.8%
Echo Prompt + Zero-Shot CoT: 76.4%
https://scrapbox.io/files/65b9a783e294b20024783f49.png
Zero-shot (GPT-3.5-Turbo): 77.8%
Re-Reading (ChatGPT (GPT-3.5-turbo)): 79.45%
Re-Reading + Zero-Shot CoT: 80.59%
https://scrapbox.io/files/65b9b3f655ca390024bc2122.png
Rephrase and Respond (RaR)
データなし
考察
3つのプロンプトの条件は同じだが、特にEcho PromptとRe-Readingのvanila(Zero-shot)の数字が違いすぎる
Coin Flip: Echo-Prompt: 76.7%
Re-Reading: 52%
RaRのデータ: 59.5%
GSM8K: Echo-Prompt: 5.6%
Re-Reading: 77.8%
同一条件(ChatGPT, GPT-3.5)である、Role-Play Prompt論文のZero-Shot結果は以下の通り
Coin Flip: 55.2%
GSM8K: 76%
Date Understanding: 68%
https://scrapbox.io/files/65b9b9209b4c2d0025d81f98.png
以上から、Echo Promptの論文データはおかしいところがある。
効果という点でも
数学推論、常識推論の2つで、Re-ReadingはEcho Promptを上回った。
上のプロンプトの違いでの考察である、Re-Readingの方が、質問を繰り返すという意味においては、強力と思われるを裏付ける結果となった。
そのため、Echo Promptを使う必要性は乏しいものと考えられる