パワハラプロンプトの考察
パワハラプロンプトがSNSで話題だが、
本当に効果はあるのか?
何回、パワハラを繰り返すべきか?
気をつけるべきことは?
どんなタスクに適しているのか?
などの疑問が生じたため、考察していく。
論文
以下の2つの論文で、GPTに批評 -> 改善させる手法を検証している
Self-Refine論文
実験
GPT-3.5/4を使って、ダイアログ応答生成から数学的推論まで、7つのタスクで評価
プロンプト
FeedbackとRefineのプロンプトをそれぞれ設定し、アルゴリズムに沿ってプログラム上に実装
評価
タスク固有のメトリクス/ 人間 / GPT-4自動評価
ベース
Zero-Shot
Recursively Criticizes and Improves 論文
実験
GPT-3.5を使って、数学推論タスクを評価
GPT-3.5/4を使って、Webインタラクションタスクを評価
プロンプト
https://chatgpt.com/share/f8c0451f-54c5-4dfc-8a45-93dd27bd0c59
評価
タスク固有の評価
ベース
Zero-Shot, Zero-Shot-CoT, CoT
(なお、 2022年のSelf-Improve論文は、似てそうでこの趣旨と全く関係ない論文)
論文の結果
どちらも、ほぼすべてのタスクで、Base Lineより性能が改善
Self-Refine論文
https://scrapbox.io/files/65ac93b68091370022d92353.png
Recursively Criticizes and Improves 論文
https://scrapbox.io/files/668e483c466fd0001d8e7185.png
https://scrapbox.io/files/668e4be72376c0001dbc4e33.png
GSM8Kの結果
Self-Refine論文
https://scrapbox.io/files/66932ec1b76f92001c3d4091.png
Recursively Criticizes and Improves 論文
最大ループ数を2とし、出力が正解なら終了。
https://scrapbox.io/files/66933369207182001d938c8d.png
Self-Refine論文では、反復の回数が増える(Max: 4回)ほど、性能向上が見られた。
Recursively Criticizes and Improves 論文では、反復回数と性能向上の言及はなく、推論タスクにおいては、誤ったフィードバックを生成することにより性能劣化が見られたため、2回までに制限を加えている。
どちらの論文も、性能劣化した原因は、誤ったフィードバックであった。
追記
上2つの論文と真逆の結果の論文があったので、解読する。
LLMの自己修正を批判的に検討した論文