パワハラプロンプトの考察

本当に効果はあるのか？

何回、パワハラを繰り返すべきか？

気をつけるべきことは？

どんなタスクに適しているのか？

などの疑問が生じたため、考察していく。

論文

以下の2つの論文で、GPTに批評 -> 改善させる手法を検証している

実験

GPT-3.5/4を使って、ダイアログ応答生成から数学的推論まで、7つのタスクで評価

プロンプト

FeedbackとRefineのプロンプトをそれぞれ設定し、アルゴリズムに沿ってプログラム上に実装

評価

タスク固有のメトリクス/ 人間 / GPT-4自動評価

ベース

Zero-Shot

実験

GPT-3.5を使って、数学推論タスクを評価

GPT-3.5/4を使って、Webインタラクションタスクを評価

プロンプト

評価

タスク固有の評価

ベース

Zero-Shot, Zero-Shot-CoT, CoT

(なお、 2022年のSelf-Improve論文は、似てそうでこの趣旨と全く関係ない論文)

論文の結果

どちらも、ほぼすべてのタスクで、Base Lineより性能が改善

https://scrapbox.io/files/65ac93b68091370022d92353.png

https://scrapbox.io/files/668e483c466fd0001d8e7185.png

https://scrapbox.io/files/668e4be72376c0001dbc4e33.png

GSM8Kの結果

https://scrapbox.io/files/66932ec1b76f92001c3d4091.png

最大ループ数を2とし、出力が正解なら終了。

https://scrapbox.io/files/66933369207182001d938c8d.png

Self-Refine論文では、反復の回数が増える(Max: 4回)ほど、性能向上が見られた。

Recursively Criticizes and Improves 論文では、反復回数と性能向上の言及はなく、推論タスクにおいては、誤ったフィードバックを生成することにより性能劣化が見られたため、2回までに制限を加えている。

どちらの論文も、性能劣化した原因は、誤ったフィードバックであった。

追記

上2つの論文と真逆の結果の論文があったので、解読する。