CoTで気をつけるべきこと
CoT (Chain-of-Thought)は、推論タスクの精度をあげるテクニックだが、気をつけないと精度を下げてしまうことがある
気をつけるべきことは、以下の通り
例示に気をつける
Rephrase and Respond論文で指摘された
CoTにおいて、例を提示するのはuserがやることだが、ここに不適切な例を1つでも入れてしまうと、精度が大きく下がってしまう
https://scrapbox.io/files/65b2137acfd7980023e5f016.png
そのため、この例示の品質管理が重要になってくる
しかし、LLMは人間が意図しない解釈をすることがある
例えば、コインを反転させるタスクで、投げる動作を、ランダムに毎回投げると解釈したりする
だからこそ、質問の言い換え(Rephrase and Respond (RaR))を併用することがめちゃ大事。
https://scrapbox.io/files/65b212752a50670026c86db9.png
このように、変な例でも、RaRが吸収して正解を出してくれるから、かなりありがたい
タスクに気をつける
When need CoT for ChatGPT論文では、数学の推論タスクで精度を下げたと結果が似ている
https://twitter.com/0317_hiroya/status/1747613302077977019
https://scrapbox.io/files/65b2f13746299a002508e3e2.png
ChatGPTは指示が与えられていなくても、ほとんどの質問に対して自発的にCoTステップを生成し、高品質な回答を生み出す。
そして、Instruction FineTuningされた数学の推論のCoTのタイプは、プロンプトで明示的に指定するCoTよりも成績がよく、同時に同じようなCoT指示を出してしまうと、このすでに事前学習されたCoT指示が曖昧になってしまい劣化につながるだろうと推測している。
また、Rephrase and Respond論文では、Zero-Shot CoTは、中国語の成語課題の最初の文字を正確に推測する難しいタスクで、精度を下げた
https://scrapbox.io/files/65b20938136abb0024fea119.png
幻覚スノーボールが関わっていると考察されている。
https://twitter.com/0317_hiroya/status/1750660261026111722
その他の関連論文
CoTによる不誠実な説明論文
多肢選択回答オプションを並び替えて、正解が常に最初のもの(A)になるようにしたバイアスをつけると、正確性が大きく低下する