CoTで気をつけるべきこと

CoT (Chain-of-Thought)は、推論タスクの精度をあげるテクニックだが、気をつけないと精度を下げてしまうことがある

気をつけるべきことは、以下の通り

例示に気をつける

CoTにおいて、例を提示するのはuserがやることだが、ここに不適切な例を1つでも入れてしまうと、精度が大きく下がってしまう

https://scrapbox.io/files/65b2137acfd7980023e5f016.png

そのため、この例示の品質管理が重要になってくる

しかし、LLMは人間が意図しない解釈をすることがある

例えば、コインを反転させるタスクで、投げる動作を、ランダムに毎回投げると解釈したりする

だからこそ、質問の言い換え(Rephrase and Respond (RaR))を併用することがめちゃ大事。

https://scrapbox.io/files/65b212752a50670026c86db9.png

このように、変な例でも、RaRが吸収して正解を出してくれるから、かなりありがたい

タスクに気をつける

When need CoT for ChatGPT論文では、数学の推論タスクで精度を下げたと結果が似ている

https://scrapbox.io/files/65b2f13746299a002508e3e2.png

ChatGPTは指示が与えられていなくても、ほとんどの質問に対して自発的にCoTステップを生成し、高品質な回答を生み出す。

そして、Instruction FineTuningされた数学の推論のCoTのタイプは、プロンプトで明示的に指定するCoTよりも成績がよく、同時に同じようなCoT指示を出してしまうと、このすでに事前学習されたCoT指示が曖昧になってしまい劣化につながるだろうと推測している。

また、Rephrase and Respond論文では、Zero-Shot CoTは、中国語の成語課題の最初の文字を正確に推測する難しいタスクで、精度を下げた

https://scrapbox.io/files/65b20938136abb0024fea119.png

幻覚スノーボールが関わっていると考察されている。

その他の関連論文

多肢選択回答オプションを並び替えて、正解が常に最初のもの（A）になるようにしたバイアスをつけると、正確性が大きく低下する